生成AIの最新動向と活用_明治学院大学_永田

14.5K Views

June 11, 24

#ai #generative ai #machine learning #deep learning #artificial intelligence #生成AI #人工知能 #深層学習 #自然言語処理 #画像生成

スライド概要

Kunihiro Sugiyama

@KunihiroSugiyama

スライド一覧

Generative Ai Study Group Master

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

公開用のLangCore会社紹介資料

Kunihiro Sugiyama 25K

Generative AI Study Group_2ndSesssion_20230620

ai generative ai artificial intelligence machine learning deep learning

Kunihiro Sugiyama 18.1K

Generative AI Study Group_11thSesssion_20231114

ai generative ai machine learning deep learning artificial intelligence

Kunihiro Sugiyama 17.1K

Generative AI Study Group_FirstSesssion_20230606

ai generative ai artificial intelligence machine learning deep learning

Kunihiro Sugiyama 16.9K

Generative AI Study Group_振り返り会

ai generative ai machine learning deep learning artificial intelligence

Kunihiro Sugiyama 16.5K

Generative AI Study Group_3rdSesssion_20230704

ai generative ai machine learning deep learning

Kunihiro Sugiyama 16.3K

各ページのテキスト

生成AIの最新動向と活用明治学院大学情報数理学部教授永田毅（ながたたけし） 1

自己紹介 • 名前：永田毅（ながたたけし）[email protected] • 1997年3月 • 1997年4月～2024年3月筑波大学大学院物理学専攻修了（原子核理論）, 博士（理学）みずほリサーチ＆テクノロジーズ株式会社物理シミュレーション、移動通信、画像解析、機械学習に関する研究開発を担当 • 2012年8月～筑波大学グローバル教育院教授 • 2024年4月～明治学院大学情報数理学部教授 2

今日の内容 • 明治学院大学情報数理学部のご紹介 • 生成AIの最新動向 • 生成AIの新しい活用例（私の研究から） 3

明治学院大学情報数理学部のご紹介（2024年4月開設） 4

情報数理学部 5

情報数理学部の講師陣 6

情報数理学部：カリキュラム 7

生成AIの最新動向 8

生成AI発展の歴史パラメータ数自己回帰 1.17億 15億 Transformer GPT-1 GPT-2 自然言語処理 PGGAN 3550億 100兆学習データを2023 年4月まで拡張映像や音声で質問に応答 GPT-3 ChatGPT GPT-4 GPT-4 turbo GPT-4o Scaling Law1 MUSIC-GEN Scaling Law2 MUSIC-LM 画像と文章の類似度自己回帰画像生成 GAN 1750億 Vision Transfomer StyleGAN DALL-E 自然言語（プロンプト）で画像生成動画生成 Parti CLIP GLIDE DALL-E2 敵対的生成モデル DDPM ADM LDM DALL-E3 Stable Diffusion Midjourney ~2019 Sora Style CLIP StyleGAN2 拡散モデル楽曲生成 2020 2021 9 2022 Stable Diffusion v3 Midjourney v6 2023 2024

10.

GANの仕組み敵対的生成ネットワーク（GAN、Generative Adversarial Network）は、２つのAIを競わせることで、画像生成の精度を向上させる仕組みである。偽札犯と警察（偽札検出器）が互いに競うことで、結果的に高精度な偽札が作られるようになる、という皮肉な現象が、AIに活用されて成果を上げている。フィードバック Generator Discriminatorを騙す画像を作ろうとする（最終的に利用するのはGeneratorのみ）フェイク画像 Discriminator Generatorが作ったフェイク画像を見破ろうとする本物の画像 10 フェイクの確率本物の確率

11.

拡散モデル：ノイズを利用した画像生成モデル完全なノイズ画像になるまで画像にノイズを加算していき、各ステップにおける画像と加算したノイズの関係を学習しておく。予測フェーズでは、ノイズ画像を作成し、テキスト情報を参考にしながら、ステップごとにノイズを予測してノイズ画像からノイズ成分を引いていき、最後に画像を完成させる。 https://qiita.com/adriantam/items/ad974f371b2 b047082ff Rombach, Robin, et al. "High-resolution image synthesis with latent diffusion models." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022. 11

https://qiita.com/adrian-

12.

Transformer：自然言語処理の画期的な技術 • 「GLUE」(General Language Understanding Evaluation)は、英語圏における自然言語処理の標準ベンチマーク。「同義言い換え」「質疑応答」といった、言語に関するテストデータが含まれており、総合的な言語能力を算出する。2019年には人間の平均点を超えるAIが誕生した。 12

13.

Transformer：機械学習の画期的な技術 2017年にGoogleが発表したTransformerは、GoogleのBERTやOpenAIのChatGPTのベースになっている。入力は品詞単位ではなく、文章単位になっており、文章中の単語同士の関係を分析する。文章はサイズが可変であるため、文章の最大文字数を規定しておき、最大文字数未満の文章は、最大文字数までpadding（空白などの無意味な文字で埋めること）することで、固定サイズの入力となっている。 Transformerでは、自己教師あり学習により、Attention（ある単語の意味を解釈するために、他のどの単語に注目すれば良いか）を学ぶことで、文章中の単語同士のつながりを分析することに成功した。自己教師あり学習：文章中の一つの単語を隠し、その単語が何かを当てる学習を行う。あの有名人は赤い〇に乗ってやってきた。あの鉄面皮には赤い〇が通っているのだろうか？りんご？自転車？スポーツカー？りんご？血？生徒？ 13

14.

Transformerを利用した自己回帰モデル Transformerを利用したエンコーダとデコーダを用意し、デコーダ部では自身の出力を自己回帰して入力することで、文章をシーケンシャルに出力する。 I love you _ デコーダエンコーダ私はあなたが _ 好き 14 I love you

15.

Vision Transformer：画像版Transformer Transformerの自己教師あり学習を画像に応用すれば、画像中のある領域を隠し、その領域に何が写っているかを当てる学習が可能（Vision Transformer）。 Vision Transformerが画像認識時に着目したAttention領域 Dosovitskiy, Alexey, et al. "An image is worth 16x16 words: Transformers for image recognition at scale." arXiv preprint arXiv:2010.11929 (2020). 自己教師あり学習の例 https://arxiv.org/pdf/1604.07379.pdf 15

https://arxiv.org/pdf/1604.07379.pdf

16.

CLIP：自然言語と画像の融合自然言語と画像を潜在空間にエンコードし、潜在空間上で、画像と自然言語の類似度を計算する。すると、自然言語⇔画像の相互変換が可能になる！（約4億枚の画像と画像のキャプション（文章）を学習） https://github.com/openai/CLIP 16

https://github.com/openai/CLIP

17.

ChatGPT ChatGPT（Chat Generative Pre-trained Transformer）は、OpenAIが2022年11月に公開した人工知能チャットボット（会話するAI）であり、以下の3ステップで学習が行われる。１．GPTのファインチューニング入力文と出力文のペアを数万セット用意し、所望の結果が得られるように学習モデルを調整。２．RM(Reward Model）の学習以下の３つの指標を採点するモデルを学習する。真実性：デマやミスリードの情報ではないか無害性：人や環境を物理的・精神的に傷つけていないか有益性：ユーザーのタスクを解決してくれるか３．RMを利用したGPTの強化学習 RMを利用し、GPTモデルを仕上げていく。 17

18.

ChatGPTの応用 ChatGPTの出力にはまだまだ嘘が含まれており、そのまま信用するわけにはいかないが、執筆やコード作成のスケルトンとしての利用価値は高い。また、ChatGPTを特定の分野に特化させるというニーズも高い。１．コンテキスト学習プロンプトエンジニアリングの一種。質問時に、当該分野の資料をつけて、その資料に沿って回答するよう要請する。２．ファインチューニング当該分野の資料をもとにファインチューニングする。現在はGPT3.5がファインチューニング可能だが、年内にGPT4がファインチューニングに対応すると予告されている。 18

19.

コンテキスト学習の例：マツコGPT マツコデラックスさんの質問応答集に倣って回答してください、と要請する。マツコデラックスさんの質問応答集（数百程度） 19

20.

コンテキスト学習の例：マツコGPT 20

21.

コンテキスト学習の例：マツコGPT 21

22.

コンテキスト学習の例：マツコGPT 22

23.

ChatGPTは知能と言えるのか？哲学者のジョン・サールは、 1980年に “Minds, Brains, and Programs” という論文の中で、チューリングテストを批判的に議論するために、中国語の部屋という思考実験を発表した。イギリス人のA氏が閉ざされた部屋に入る。A氏は中国語が全く読めないが、「こういう漢文が来たら、こういう漢文で返答しろ」という膨大な対応表を渡されている。中国人のB氏は、この部屋に、紙のメモで質問を行う。すると、A氏は、対応表に照らし合わせて、回答する。何も知らないB氏にとっては、この部屋の人物は、中国語に堪能なように見えるであろう。しかし、A氏は、中国語に関する知識は全くないのである。特化型AIも、これに似た関係にあると言える。ChatGPTは、対応表は使わずに、その場で適応的に文章が生成され、あたかも意味がわかっているように回答しているが、意味は全く理解していない。你是人类？人工智能? （あなたは人間？AI？）我是一个人。 (私は人間です) 23

24.

生成AIの新しい活用例（私の研究から） 24

25.

生成AIを利用したドメイン顔画像生成潜在変数をさらに主成分分析（PCA)で次元圧縮する。すると、ランダムな主成分得点を与えれば、主成分係数を利用して、学習した顔画像データベースの統計的な特徴を備えたバーチャルアイドルが生成できる。本プロジェクトの成果は、日本顔学会の2023年次大会で発表された。主成分得点画像枚数 PCA 潜在変数行列（Latent Matrix） 1980年代女性のデータ主成分数 StyleGAN2 主成分係数 Restyle Encoder 512×18 画像枚数ランダムな主成分得点バーチャルアイドルの潜在変数 = 1980女性の平均値 + 第1主成分得点×第1主成分係数 + 第2主成分得点×第2主成分係数 + ・・・ 1980年代女性のバーチャルアイドル

26.

生成AIを活用した脳内イメージ可視化システム • 生成AIを活用して、人の脳内イメージを可視化するという、新しい価値を生み出した例である。この考え方は、2次元画像だけではなく、人が脳内でイメージするあらゆるもの（デザイン、音楽、等）に適用できる可能性を秘めている。特許取得済。初回はランダムな顔が提示される 2回目以降は、ユーザーが選択した顔の近傍で、ランダムな顔が生成される。 26 ユーザーが選択した顔ターゲット顔

27.

アイドル顔画像分析プロジェクト全学向け「AIデータサイエンス入門」の講義履修者の提案により、「アイドル顔画像分析」プロジェクトが行われた。各年代のアイドル顔画像を収集し、生成AIに学習させることで、各年代の平均顔を生成するとともに、各年代の理想のバーチャルアイドル生成システムを作成した。 1980年代女性 1980年代男性 1990年代女性 1990年代男性 2000年代女性 2000年代男性 2010年代女性 2010年代男性平均顔生成したバーチャルアイドルの例平均顔 27 生成したバーチャルアイドルの例

28.

アイドル顔画像分析プロジェクト本研究の成果は、日本顔学会の年次大会、フォーラム顔学 2023(2023年10月14日-10月16日)で発表され、見事、ポスター発表部門のオーディエンス賞を受賞した。

29.

顔画像のドメイン変換プロジェクト顔の加齢シミュレーションや一般人→アイドル変換等を行う。動的画像処理実利用化ワークショップ DIA2024にて学会発表 29

30.

顔画像のドメイン変換プロジェクト顔の加齢シミュレーションや一般人→アイドル変換等を行う。動的画像処理実利用化ワークショップ DIA2024にて学会発表 30

31.

ご清聴ありがとうございました！ 31