20221028勉強会_桧森_画像生成AIまでの道のり

0.9K Views

December 01, 22

スライド概要

HEROZ勉強会、技術調査グループ、画像チームの発表

シェア

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

画像生成AIまでの道のり TransformerからDALL・E2まで 2022年10月28日 桧森 拓真 HEROZ株式会社

2.

概要 ・Transformerから画像生成AI(txt2img)までの流れを大まかに紹介 ・代表的なものを取り上げているが一部取り上げ切れていないものや割愛しているもの もある ・大規模化するモデルについての課題・問題点を紹介 2

3.

テキストから画像生成するAIまでの流れ ・自然言語処理分野において、Transformerが登場 ・Transformerを利用したBERTなどの大規模モデルが登場 ・ViTが登場し、CVタスクにおいてもTransformerの利用が広がる ・CLIPが登場し、画像とテキストの関連を捉えることが可能になる ・CLIPを利用したテキストから画像生成するAIが次々に登場 自然言語処理分野 での発展 ・Transformerの誕生 ・BERT、GPT-3など Transformerを利用した 大規模モデルが登場 ・T5(Flan-T5) ・PaLM(Flan-PaLM) CVタスクへの応用 ・ViT ・画像パッチを自然言語 の単語とみなして処理 ・MAEで自己教師あり 学習 Vision and Languageのモデ ル登場 ・画像とテキストの類似 度を出力できるCLIPの 登場 ・画像とテキストの関連 を捉えることができる テキストから画像 生成するAIへ応用 ・CLIPを応用した画像 生成AIが次々に登場 ・GLIDE ・DALL・E2 ・Imagen ・Stable Diffusion 3

4.

自然言語処理分野での発展 Transformer ・系列データを一括同時処理(RNNは逐次処理) ・GPUの並列計算などにより学習を高速化できる ・大規模モデルはTransformerがベースになっているものが多い ・self-attentionにより、各単語がどの単語と関連しているかを計算可能に(右下図) 出典:https://arxiv.org/pdf/1706.03762.pdf 4

5.

自然言語処理分野での発展 BERT ・自己教師あり学習によりラベルなしの文章を学習に利用可能 ・Masked Language Model(単語を[MASK]に置き換え、元の単語を予測) ・Next sentence prediction(二つの文章が連続した文章かどうかを予測) ・事前学習モデルをファインチューニングすることで様々なタスクに応用 ・多くの自然言語処理タスクで当時のSOTA(最高精度)を達成 This is an apple. ランダムに選んだ単語を[MASK]に置き換え This is an [MASK]. [MASK]に入る単語を予測 This is an apple. Masked Language Model 5

6.

CVタスクへの応用 ViT(Vision Transformer) ・画像のパッチを自然言語における単語とみなす ・CNNを超えたと話題に - 大規模なモデル・学習データで事前学習した場合、CNNも高い性能を示している ・ViTでも自己教師あり学習が可能に Masked AutoEncoder(MAE)は画像にマスクをかけ、復元する(右下図) 出典: https://arxiv.org/abs/2010.11929 出典: https://arxiv.org/pdf/2111.06377.pdf 6

7.

Vision and Languageのモデル登場 CLIP ・画像とテキストの類似度を出力 - 画像とテキストの関係性を捉えることが可能に ・未知の画像に対しても類似度による分類が可能 ・CLIPを利用した画像生成モデルが次々に登場 、白い猫 類似度:0.99 CLIP 、黒い犬 出典:https://arxiv.org/pdf/2103.00020.pdf 類似度:0.01 7

8.

テキストから画像生成するAIへ応用 DALL・E2 ・テキストからCLIPの画像特徴量を生成(text encoder + prior) ・CLIPの画像特徴量からdecoderを通して画像を生成(unCLIP) ・priorとdecoderには拡散モデルを使用 ・多様性のある画像生成が可能に 出典:https://cdn.openai.com/papers/dall-e-2.pdf 8

9.

大規模モデルの課題・問題点 ・scaling law - Transformerの性能はパラメータ数N・データセットサイズD・計算予算Cのべき乗 則に従い、3要素同時にスケーリングすると性能が際限なく向上する(仮説) - 今のところ実験的に成立している - 資金・資源のある企業しか開発できなくなる - 各要素を大きくするだけでは資源が枯渇していく(効率化も必要) ・学習データの問題(権利・倫理的な) - 独自プラットフォームのデータなど容易に公開できない(google、Metaなど) - 学習データに含まれるバイアスの除去 - 非営利組織が構築したLAIONデータセットが登場(CC-BY 4.0) 9

10.

まとめ ・Transformerから画像生成AI(DALL・E2)に至るまでの流れを紹介 ・CLIP特徴量を利用した画像生成AI(txt2img)が発達 ・最近では拡散モデルを組み合わせたものが多い ・大規模化し、高性能化するモデルだが、課題や問題点も存在する 10