【DL輪読会】MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training

6.8K Views

March 22, 24

#マルチモーダルLLM #事前学習 #大規模言語モデル #画像認識 #自然言語処理

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 88.5K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 60.5K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 60.4K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 43.6K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 40.4K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 40.2K

各ページのテキスト

MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training Shohei Taniguchi, Matsuo Lab

書誌情報 MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training • 3/19にarXivに投稿 • マルチモーダルLLMの学習において，どの要素が性能により影響を与えるのかについて検証したAppleの論文 • 検証結果をもとにしたベストな構成で学習したモデルは，同サイズの他のモデルと比較して，高い性能を実現 2

背景マルチモーダルLLM, MLLM • 近年のLLMは，テキストだけでなく，画像もコンテキストとして与えられるものが増えている（例：GPT-4V, Gemini） 3

背景マルチモーダルLLM • MLLMの構成はとてもシンプル • 画像を埋め込んでテキストと同じようにトークン化してLLMに入力するだけ • ただし，細かい構成方法にはバリエーションがあり，どの要素がより重要なのかはあまり自明ではない 4

背景 Closed Model vs Open Model • 最近は，GPTやGeminiのように，APIのみを提供して，モデルを公開しない closed modelが増えている • Open modelも，モデルやデータ，学習設定などは公開しているが，その選定に至るプロセスはほとんど公開されておらず，大規模なモデルの開発において何が重要なのかが知見として共有されていない 5

モチベーション • MLLMの学習において，重要な要素を幅広いablationを通して明らかにする • 特に以下の項目を詳細に調査 • 画像エンコーダの学習方法 • 画像と言語の接続方法 • 事前学習時のデータの選定方法 6

実験設定 • Ablationでは比較的小さいモデルで各要素を検証する • Image Encoder: VITベースのCLIP • VL Connector: C-Abstractor • LLM: 2Tトークンで事前学習した1.2Bのdecoder-only Transformer • 最後にベストな構成で30Bまでスケールさせる • 評価はcaptioningとVQAのfew-shot性能 + text-onlyの性能（TextCore）

Image Encoder • MLLMはImage Encoderを何らかの方法で事前学習してから，LLMと結合する • 事前学習の方法として以下の要素を検証 • ロス：対照学習（CLIP）vs 再構成（AIM） • モデルサイズ：ViT-L vs ViT-H • 入力画像サイズ：224~378で変動させる • データ：人工的なキャプションデータ（VeCap）を使うかどうか

補足：VeCap Visual-enriched Caption • AltTextのキャプションデータをLLMに校正させたもの https://arxiv.org/abs/2310.07699

https://arxiv.org/abs/2310.07699

10.

Image Encoder • 画像サイズ > モデルサイズ > 人工データの順で効果がある • 同じモデルサイズだとCLIPの方が若干良いが，これはデータの量が違うから何とも言えない（なぜデータを揃えてないのか不明

11.

Vision Language Connector • Image Encoderの特徴量はそのままだと扱いづらいので，LLMに入力しやすいようにテキストと同じサイズにトークン化する必要がある • 基本的には何らかの方法でpoolingして，サイズを整える • Average pooling • Attention: トークン数分queryを用意してattention • C-Abstractor: ResNet + avg. pooling

12.

Vision Language Connector • Connectorの種類はどれも大差はない • 画像サイズやトークン数を上げる方が重要

13.

事前学習用データ • 全体の事前学習時に使うデータの種類の影響を検証 • 以下を様々な割合で混ぜて事前学習に使う • キャプション付き画像 • Interleaved Image-Text • テキストのみ • 人工キャプション（VeCap）の効果も検証

14.

補足：Interleaved Image-Text • https://huggingface.co/spaces/HuggingFaceM4/obelics_visualization

https://huggingface.co/spaces/HuggingFaceM4/obelics_visualization

15.

事前学習用データ • Interleavedはfew-shot性能に重要 • キャプションはzero-shot性能に重要 • Text-onlyもある程度必要 • VeCapはfew-shotを少しだけ改善する • Caption : Interleaved : Text = 5 : 5 :1くらいがちょうど良い

16.

最終モデル • Image Encoder: ViT-Hを解像度378x378でCLIPロスで学習 • VL Connector: C-Abstractorで144トークンに変換 • データ：caption, interleaved, textを45%, 45%, 10%の割合で混ぜる • LLM部分は，3B~30Bまでスケールアップさせる

17.

ハイパーパラメータの決め方 • モデルをスケールさせるとき，学習率などのハイパラの調整が難しい • 各サイズでそれぞれチューニングするのはコスト的に厳しい • まずは，9M~1.2Bのサイズでそれぞれグリッドサーチしてから，その値を線形回帰させて，大きいモデルにも外挿する

18.

事前学習後の性能 • 同じサイズの既存のモデルよりも大きく性能を改善 • MM1-30Bは80Bサイズの既存モデルよりもいい性能

19.

Supervised Fine-Tuning • 事前学習したMM1をSFTしたときの性能も検証 • データには，以下を使用 • 複雑な推論タスクをGPT-4VやLLaVAに答えさせて作ったデータ • VQAv2などのvision-languageデータセット • テキストのみのSFTデータセット（社内データ）

20.

Supervised Fine-Tuning 高解像度画像への対応 • 事前学習時には378x378の画像にしか対応していないが，より高解像度画像に対応できるように，SFTでは448~672の解像度で学習 • ViTのpositional encodingを補完すれば事前学習時のモデルをそのまま使える • より大きい画像を入れる場合は，672x672に縮小したものと分割したものを両方入力することで対応 • これにより最大1792x1792まで対応

21.

Supervised Fine-Tuning • SFT後も同規模のモデルの中で SOTAな性能を発揮 • 同時期に出たLLaVA-NeXTとは大体同じくらいの性能

22.

Supervised Fine-Tuning • 画像は基本的に大きいほど良い • 事前学習を短くすると性能は下がる

23.

まとめ • マルチモーダルLLMの学習における構成要素を細かくablation • 検証結果を反映してスケールさせたMM1は，同サイズのモデルでSOTA性能を実現感想 • MLLMのまとまった検証は少ないので，参考になる部分は多そう • 結果自体はそこまで意外な部分は多くない（気がする）