【DL輪読会】MoAI: Mixture ofAll Intelligence for Large Language andVision Models

4.3K Views

April 04, 24

#Vision-Language Model #Computer Vision #Mixture of Experts #Multi-modal Learning #Few-shot Learning

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 90.9K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 67.7K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 61.2K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 50.5K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 47.7K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 47.4K

各ページのテキスト

DEEP LEARNING JP [DL Papers] MoAI: Mixture of All Intelligence for Large Language and Vision Models Kim Yongmin, M2, Yamashita・An Lab, The University of Tokyo http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報 § タイトル: MoAI: Mixture of All Intelligence for Large Language and Vision Models § 著者: Byung-Kwan Lee, Beomchan Park, Chae Won Kim, and Yong Man Ro § 所属: Korea Advanced Institute of Science and Technology (KAIST) § 発表⽇: 2024/03/12 (arxiv) § 概要: VLMに外部のCVモジュールから多様な視覚的な情報を活⽤して，精度を向上 § 選定理由: 複数の⼩さい外部モジュールを融合して，精度を⼤幅に向上して，話題新しいパラダイムになる可能性あり § 実装: https://github.com/ByungKwanLee/MoAI 2

https://github.com/ByungKwanLee/MoAI

概要 § 既存のVLMは画像中にある詳細な情報を捉えるのが苦⼿ 3

概要 § 本研究では複数の外部のCVモジュールを内部に打ち込んで，効率的（MoE)に⽤いて，性能を向上 § ⼩さいCVモジュールを融合することで，Open-sourceモデルでSOTAを達成． § Closed モデルにおいても，⼀部のベンチマークではSOTAを達成各種ベンチマークの性能評価 4

⼿法 § 今回の⼿法は⼀つのモジュールではなくて，複数のモジュールを効率的(MoE)に内部に融合特徴融合＆ VLM本体画像特徴部⾔語特徴部 CV モジュール部モデルの全体図 5

⼿法 § 画像および⾔語の基盤モデル § Vison Backbone: CLIP-L/14 § Language Backbone: InternLM-7B CLIP-L/14 InternLM-7B 6

⼿法 § CVモジュール § Panoptic Segmentation (PS) (Instance Segmentation + Segmentation) § Open-World Object Detection (OWOD) § Scene Graph Generation (SGG) § Optical Character Recognition (OCR) § CVモジュールの出⼒を全て，⾔語化(Verbalization)して，⾔語トークンモとしてモデルに挿⼊ 7

⼿法 § Panoptic Segmentation (PS) – Mask2Former (model size: 106M) § 物体の位置情報 Bounding Box 抽出結果の⾔語化 𝐴!" Auxiliary Token Segmentation結果を Flattenして挿⼊ 8

⼿法 § Open-World Object Detection (OWOD) – OWLv2 (model size:154M) § PSモデルは検出可能な物体クラスに限界が存在 → PSモデルで検出できなかったものを検出して，補助結果の⾔語化 𝐴#$#% OWODのAuxiliary Token 9

10.

⼿法 § Scene Graph Generation (SGG) – panoptic SGG (model size: 44M) § 画像中にあるものらの関係情報結果の⾔語化 𝐴"&& SGGのAuxiliary Token 10

11.

⼿法 § Optical Character Recognition (OCR) – PaddleOCRv2 (model size: 18M) § 画像の中にあるテキスト情報結果の⾔語化 𝐴#'( OCRのAuxiliary Token 11

12.

⼿法 § これらのAuxiliary Tokensを𝐴(固定⻑)に圧縮して，MoAI-Mixer (VLMの本体) に挿⼊ § MoAI-Compressor: Transformer Encoder, 𝐴)*+,- : Compressed Learnable Tokens (固定⻑) 12

13.

⼿法 § ⼊⼒は𝐴, 𝐼𝑀𝐺, 𝐿𝐴𝑁𝐺3つが存在 § この3つの組み合わせるExpertモジュール (Cross Attention, Self-Attention) をそれぞれの6つ採⽤例）AUX(k/v) + IMG(q) → 𝐼./0 , IMG(k/v) + LANG(q) → 𝐿12& § Expertを明⽰的に定義* 画像特徴⾔語特徴 13

14.

⼿法 § これらの6つのExpertを⾔語と画像に分けて，Mixture of Expert (MoE)で選択 § MoEで出⼒されたものをTransformer Decoder Blockに挿⼊ § Transformer Decoder BlockにはLoRAを⽤いて，軽量化 14

15.

⼿法 § Visual Instruction tuningで訓練 § 学習の安定化のために2つのステップに分けて訓練 1. MoeのGating Networkは訓練せず，各Expertをサンプリングして，全てのExpertを学習 2. MoEのGating Network込みで全体を訓練する 15

16.

実験結果 § 各種ベンチマークでの結果 (Zero-shot) § 全てのデータセットでの評価でOpen VLMsの中でもっともいい性能（は例外） § ⼤きいサイズモデルと⽐較しても，性能がいい代表的なVLMs InternLM-7B ベースのVLM 提案⼿法 16

17.

実験結果 § もっと⼤きいモデルとClosedモデルらとの⽐較 (Zero-shot) § 複数のベンチマークで，もっと⼤きなモデルとClosedモデルらに対しても，⾼い性能を達成スコアパラメータ数 17

18.

実験結果 § Ablation Study 位置情報 X 関係情報 X ⽂字情報 X 提案⼿法 § Ablation項⽬ § PS+OWOD: Existence，RecognitionとLocalizationが⼤幅に減少 (ものがあるかないか，認識) § SGG: PositionとSpatialが⼤幅いに減少 (空間配列) § OCR: OCRとTT(Text Translation)が⼤幅に減少 (⽂字認識) 18

19.

実験結果 § Ablation Study § Ablation項⽬ § Training step choice § First: MoEをランダムサンプリングして訓練 § Second: Moeとモデルを同時に訓練 § Combined: First → Second § Selecting Top-k Experts: MoEで何個のExpertを採⽤するか § Gating network weights: MoeのGate Networkの重み 19

20.

実験結果 § 実際の例 20

21.

まとめ § 外部のCVモジュールを融合することで，効率的に精度を⼤幅に向上 § モデルサイズと⼤規模なデータセットより，シーンの精密な理解することがもっと重要 § ものを正確に認識して，それらの関係を把握することがキーポイント § もっと多様なモジュールを融合することを期待 21

22.

感想 § Model Mergingの相違点 § 異なる構造を持ったモデルらを結合することが可能 § 学習コストが⾼いが，もっと多様性のあるモデルが作成可能 § モデルMergingより，説明性が⾼い § あるドメインに特化した⼩規模なモデルを融合することが新しいパラダームになる可能性が⾼い § VLMだけではなく，LLMドメインでの研究[Bansal+ 2024] 22

23.

参考⽂献 § [2024 Bansal+]: R. Bansal et al., “LLM Augmented LLMs: Expanding Capabilities through Composition.” arXiv, Jan. 04, 2024. Accessed: Jan. 11, 2024. [Online]. Available: http://arxiv.org/abs/2401.02412 23

http://arxiv.org/abs/2401.02412