【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モデルによる少量プロンプト推論

539 Views

October 17, 22

@deep learning jp

スライド概要

2022/10/14
Deep Learning JP
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 24.4K

【DL輪読会】Generative Agents: Interactive Simulacra of Human Behavior

Deep Learning JP 13K

【DL輪読会】4D Gaussian Splatting for Real-Time Dynamic Scene Rendering

Deep Learning JP 12.1K

【DL輪読会】LLMベースの自律型エージェントシステムのサーベイ

Deep Learning JP 11.7K

【DL輪読会】LightGlue: Local Feature Matching at Light Speed

Deep Learning JP 9.7K

【DL輪読会】Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback

Deep Learning JP 7.8K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モデルによる少量プロンプト推論山本貴之（ヤフー株式会社） http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報タイトル： Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モデルによる少量プロンプト推論 https://arxiv.org/abs/2204.14198 (NeurIPS 2022 Poster) DeepMind 著者： Jean-Baptiste Alayrac*,‡, Jeff Donahue*, Pauline Luc*, Antoine Miech*, Iain Barr†, Yana Hasson†, Karel Lenc†, Arthur Mensch†, Katie Millican†, Malcolm Reynolds†, Roman Ring†, Eliza Rutherford†, Serkan Cabi, Tengda Han, Zhitao Gong, Sina Samangooei, Marianne Monteiro, Jacob Menick, Sebastian Borgeaud, Andrew Brock, Aida Nematzadeh, Sahand Sharifzadeh, Mikolaj Binkowski, Ricardo Barreira, Oriol Vinyals, Andrew Zisserman, Karen Simonyan*,‡ *Equal contributions, ordered alphabetically, †Equal contributions, ordered alphabetically, ‡Equal senior contributions 概要： GPT-3の画像×言語版選定理由：学習済の画像と言語のモデルを使い、それらをドメイン適応する手法に対する興味公式実装：なし ※出典記載の無い図表は本論文からの引用 2

https://arxiv.org/abs/2204.14198

Flamingoは何が出来るモデルか？画像とテキストの系列をプロンプト入力すると、その続きのテキスト系列を出力するモデルテキスト Token テキスト Token テキスト Token テキスト・・・ Token テキスト系列出力 Flamingoモデル画像（or 動画）系列入力画像１ ※輪読者作図画像２テキスト系列入力画像３・・・テキスト Token テキスト Token テキスト Token テキスト・・・ Token 3

Flamingoは何が出来るのか？実例画像とテキストを組み合わせたプロンプトを入力 → その続きのテキストを生成 4

Flamingoは何が出来るのか？ゼロショットで動画QAや画像チャットゼロショットQ&Aも可能画像の代わりに動画もOK （上図）画像チャット応答も可能（左図） 5

Flamingoのポイント学習済モデルを重み固定で利用画像/動画＆自然言語画像とテキスト間のドメイン適応部を学習画像/動画(=視覚)は一定次元ベクトルに圧縮汎用性を高めている ✓ 言語：サイズ70BのChinchilla (Hoffmann et al., 2022） ✓ 画像：サイズ435MのNFNet-F6（Brock et al., 2021） ✓ XAttn-Denseで言語と画像学習済モデルを結合学習する部分 Flamingoオリジナルの構造の提案手法 ✓ Perceiverで画像or動画を一定の潜在ベクトルに圧縮学習する部分関連研究として後述 Andrew Brock, Soham De, Samuel L. Smith, and Karen Simonyan. High-performance largescale image recognition without normalization. arXiv:2102.06171, 2021. Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch, Elena Buchatskaya, Trevor Cai, Eliza Rutherford, Diego de Las Casas, Lisa Anne Hendricks, JohannesWelbl, Aidan Clark, Eric Noland Tom Hennigan, Katie Millican, George van den Driessche, Bogdan Damoc, Aurelia Guy, Simon Osindero, Karen Simonyan, Erich Elsen, Jack W. Rae, Oriol Vinyals, and Laurent Sifre. Training compute-optimal large language models. arXiv:2203.15556, 2022. 6

関連研究 Perceiver 長期時系列×高次元データの圧縮全体アーキテクチャ図（次のページから詳細説明） 7

関連研究 Perceiver モデルアーキテクチャ図入力部 Perceiver入力部抜粋潜在表現（圧縮先）系列長N×各D次元初期値はσ=0.02で -2～+2範囲のガウスノイズ入力データ（圧縮元）系列長M×各C次元潜在表現(N×D)に圧縮動画/画像など系列が長く高次元のデータ 8

関連研究 Perceiver モデルアーキテクチャ図全体 Cross Attention + Latent Transformerブロックの繰り返し（再帰的）構造重みは共有する場合としない場合がある（任意）系列N方向に平均し D次元のLogitsを生成 GPT-2アーキテクチャを利用 SelfAttention+Dense ブロックブロック繰返し数をレイヤー数と呼ぶ 9

10.

関連研究 Perceiver モデルアーキテクチャ図 Attention式 = 𝑠𝑜𝑓𝑡𝑚𝑎𝑥 𝑄𝐾𝑇 𝑑𝑘 CrossAttention部 𝑉 → QKTを計算する為K入力をD次元にしCrossAttentionに入力 ※輪読者が公式実装を参考に作図 V K MLP MLP C次元へ D次元へ入力データ系列長M× C次元 LayerNorm K V M×D次元 M×C次元 N×D次元 MLP Q次元へ N×C次元 Q Cross Attention N×D次元 Q MLP D次元へ潜在表現系列長N× D次元 LayerNorm Residual経路出力 CrossAttentionでの次元数変化 Attention式 = 𝑠𝑜𝑓𝑡𝑚𝑎𝑥 𝑄𝐾𝑇 𝑑𝑘 𝑉 𝑄𝐾 𝑇 →[N,D][D,M]→[N,M] × 𝑉 →[N,M][M,C]→[N,C] MLP→[N,D] 10

11.

Flamingo モデルアーキテクチャ図（全体）画像と言語モデルは重み固定→破滅的忘却を防止ピンク色部分のみを学習テキスト出力画像入力テキスト入力 11

12.

次に、画像や動画入力部を説明次にこの部分の詳細を説明 12

13.

Flamingoモデルアーキテクチャ Vision Encoder & Perceiver Resampler 部潜在画像動画 Perceiverにより、様々なサイズの画像や動画に対応どんな長さ×次元でもOK K,VにQもconcatしているのは、オリジナルPerceiverと違う 13

14.

次に、ドメイン適応部を説明（Flamingoのキモ）次に、この部分の詳細を説明 14

15.

Flamingo ドメイン適応 Gated X-Attention部１２ CrossAttention(X-Attention)で視覚とテキストをドメイン適応 CrossAttentionはPerceiver構造を参考にQとKVが別次元でもOK ゲート機構３ゲート機構がある（詳細後述） X-Attention ４視覚系列入力 LM layerとGATED XATTN-DENSE が複数層重なっているテキスト系列入力系列長 64token 15

16.

Flamingo ドメイン適応 Gate機構詳細ゲート機構とは学習するパラメータα（1次元）のレイヤーの事 αの初期値は０なので学習初期はResidual経路になるゲート：tanh(α） tanh関数ゲート出力を -1 ～ +1 にする為 Residual バイパスゲート：tanh(α） Residual バイパス 16

17.

Flamingo ドメイン適応模擬コードでの理解 αは初期値０学習により変化アテンション出力 * tanh(α) + Residual 17

18.

次に、画像系列をテキスト系列にインターリーブする部分を説明次に、この部分を説明 18

19.

Flamingo インターリーブのロジック濃色部分のみX-Attentionにアタッチされる Image2 猫 Image1 犬 <image> タグ <image> タグすなわち、テキスト系列の関係する部分にのみ、該当する視覚の情報が入る 19

20.

Flamingo 学習データセット（全てWEBスクレイプデータ） Flamingo自体の学習データセット（言語と画像の学習済モデルではない）名称 M3W Multi-Modal Massive Web VTP Video & Text Pairs LTIP Long Text & Image Pairs ALIGN A Large-scale ImaGe and Noisy-text サイズ・内容特徴 43.3M instance ✓ 複数画像がありインターテキスト容量 182GB リーブ学習に適している画像枚数 185M 重みλ データイメージ 1.0 27M instance 動画テキストペア ✓ 動画 ✓ 説明的なテキスト ✓ 比較的高品質 0.03 312M instance 画像テキストペア ✓ 長文で説明的なテキスト ✓ 比較的高品質 0.2 1,800M instance 画像テキストペア ✓ 低品質だが大量 ✓ 画像とAlt-Text(短文） 0.2 ALIGNの画像出典：Jia, C., Yang, Y., Xia, Y., Chen, Y. T., Parekh, Z., Pham, H., ... & Duerig, T. (2021, July). Scaling up visual and vision-language representation learning with noisy text supervision. In International Conference on Machine Learning (pp. 4904-4916). PMLR. 20

21.

Flamingo 学習手法 lは系列位置視覚 l番目のテキスト視覚 l番目までの内最後尾のもの視覚条件付きテキスト尤度 ※ テキストテキスト l-1番目までテキスト尤度をモデル化できるのがFlamingoの重要な点（視覚をインターリーブした上で）学習データ種類重み学習データ分布モデル分布負の対数尤度交差エントロピーの加重和学習は、視覚言語シーケンス長Lのミニバッチを、各データセットMの特性に応じた重みλを乗じてモデルの負の対数尤度と学習データ分布の交差エントロピーの加重和を最小化するよう学習 21

22.

Flamingoのモデル3種と学習時間等 Flamingoのモデル３種（特に記載がない場合は最大モデルの事）学習時間等項目値 TPUチップ数 1,536個日数 15日間パラメータ数 806億（内、学習部分は102億） 22

23.

Flamingo モデルのハイパーパラメータ Flamingo各モデルのパイパーパラメータ言語層次元ヘッド Flamingoモデルのレイヤー構造項目値言語モデル 80層 XATTN挿入箇所 1層目+各x7層毎の前 (1,7,14,21,28,35,42,49,56,63,70,77) XATTN層数 12層レイヤー構造図 23

24.

実験結果従来タスク精度を100%とした時のFlamingoの相対性能 100%ラインが従来のSotA。FineTuning等を行った従来最善の結果グレー色は、従来手法でゼロもしくはFew-shotでの結果上から6タスク（OKVQAまで）は、提案手法Few-shotでSotA ゼロもしくはFew-shotという同一比較条件では 16のタスクでSotA ※16タスク目のRareActはこのグラフでは省略されている 24

25.

FlamingoはFew-shotで高い精度を実現実験結果従来タスク Zero/Few shot 提案手法 Few shot 従来タスク FineTune 25

26.

アブレーションスタディ基準（小モデル）学習データmix -21.5% Tanhゲート -4.4% X-ATTN構造 -11.0% ・VANILLA XATTN：オリジナルTransformer ・Grafting：2022年論文で類似目的手法 Perceiver構造 -5.1% 26 言語モデル学習 -1.2%

27.

まとめ結論  Few-shotで画像/動画を理解する言語タスクに応用できるFlamingoモデルの紹介  Few-shotによる様々なタスクで最先端の性能を発揮  タスク固有のFineTuningを要する既存手法に対して、競争力のある性能を発揮  画像/動画に対するチャットQAのような対話能力は、従来手法を超える柔軟性  言語と視覚を橋渡しするFlamingoが、汎用的視覚理解への重要な一歩を踏み出した感想  学習データの「質が重要」と記載があるが、そのデータはWEBスクレイプデータのみ →質を担保する手法が気になる  思ったよりドメイン適応学習が計算資源を使う為、ここがFew-shotで出来る手法がないか  大規模学習済モデルをリーズナブルに複数繋げられれば（ドメイン適応）、事業応用の幅が広がりそう 27