It’s Not a Modality Gap: Characterizing and Addressing the Contrastive Gap論文紹介

679 Views

June 08, 24

スライド概要

Docswellを使いましょう

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

Itʼs Not a Modality Gap: Characterizing and Addressing the Contrastive Gap 田中 景大 1

2.

目次 1. 前提知識 1-1 CLIPについて 1-2 modality gapとは 2. 論文要約 (Itʼs Not a Modality Gap: Characterizing and Addressing the Contrastive Gap) 2-1 概要 2-2 Modality Gapへの誤解とContrast Gapの提案 2-3 Contrast Gapを閉じる方法 2-4 実験結果 2-5 田中が思ったこと 2

3.

1. 前提知識 3

4.

1. 前提知識 1-1 CLIPについて CLIPの損失関数は、ペアとして対応する画像とテキストの埋め込みを近くに配置し、(類似性を高める) それ以外のペアの埋め込みを遠くに配置する。 埋め込みは、単位超球面上に正規化される。 4

5.

1. 前提知識 1-2 modality gapとは モダリティギャップとは、画像埋め込みとテキスト埋め込みが共通の潜在空間内で分離していることである。 データ分布の違いや異なる エンコーダーアーキテクチャに ギャップが根本の原因なのか?? 5

6.

1. 前提知識 1-2 modality gapとは Liang(2022)さんらは、 モデルの初期化とcontrastive learning最適化によって引き起こされること示唆した。 3D埋め込み空間(CLIP) 重みのランダム初期化によって異なる狭いコーン状(狭いコーン効果)に埋め込みが制限され、 contrastive learning後も保持されてしまう.. 6

7.

2. 論文要約 Itʼs Not a Modality Gap: Characterizing and Addressing the Contrastive Gap 7

8.

2. 論文要約 2-1 概要 1. モダリティギャップの誤解: 現在のモダリティギャップの理解が間違っている可能性を示唆。 2. コントラストギャップの提案: 実際には高次元の埋め込み空間で、 コントラスト損失から生じる「コントラストギャップ」であることを実験で示した。 3. ギャップを閉じる方法: 新しい損失を追加したことで、埋め込みが空間全体に均等に分布し、ギャップを縮小できた。 4. ギャップを閉じることで性能が向上: ゼロショット画像分類など多くの下流タスクで、 CLIPのデフォルトの損失よりも優れたパフォーマンスを達成できた。 8

9.

2. 論文要約 2-2 Modality Gapの誤解とContrast Gapの提案 ☆ギャップの測定方法について 1. Modality gapの距離 2. 線形分離可能 CLIP空間内で動作する線形分類器によって画像とテキストの埋め込みを識別できる割合 埋め込みが100%線形分離可能である場合、 それは各モダリティが占める空間が完全に別個であることを意味します。 逆に、50%の線形分離可能性は、画像とテキストの埋め込みがCLIP空間で重なり合い、 同じ領域を占めていることを意味。 9

10.

2. 論文要約 2-2 Modality Gapの誤解とContrast Gapの提案 CLIPのテキストエンコーダをもう一つの画像エンコーダに置き換え、 テキスト-画像ペアの代わりに画像-画像ペアでモデルを訓練。 画像エンコーダを初期化した後、 第2の画像エンコーダの埋め込みを第1の画像エンコーダの埋め込みと重なるようにする。 →初期時のGapなし 2048枚のランダムに選ばれたMS COCOの画像を使用してこの実験を実施(512次元) 10

11.

2. 論文要約 2-2 Modality Gapの誤解とContrast Gapの提案 全ての要因を削除してもGapは存在した。 11

12.

2. 論文要約 2-3 Contrast Gapを閉じる方法 マルチモーダル埋め込み間のギャップを低い均一性の問題として位置づけ、 単純に整列と均一性の最適化を行うことで、ギャップのサイズを大幅に削減し、 学習された表現の質を向上させることができないか。 現状 理想の形 12

13.

2. 論文要約 2-3 Contrast Gapを閉じる方法 均一性と整合性の要素を損失関数に加えることでgapに対処する。 均一性…埋め込みがコントラストのある潜在空間全体に均等に分布する特性。 整合性…正のペアが潜在空間で近くに(整合して)配置される特性 ☆均一性のloss 画像同士、テキスト同士のサンプルが互いに均一に分布すること。 13

14.

2. 論文要約 2-3 Contrast Gapを閉じる方法 ☆クロスモーダル均一性 異なるモーダルのネガティブサンプルが互いに遠く離れるようにすること。 ☆整合性 正のペア同士が近くになるようにすること。 14

15.

2. 論文要約 2-4 実験結果 ☆実験詳細 三つの条件で今回比べてみる。 CLIPモデルをMSCOCO(5000pairdatasets)を用いて、ファインチューニング。 15

16.

2. 論文要約 2-4 実験結果 ☆画像検索とテキスト検索の性能結果 MSCOCO検証データセット(5kの画像キャプションペア)をつかって実験してみた。 デフォルトのCLIP損失と同じくらいの性能でした。 16

17.

2. 論文要約 2-4 実験結果 ☆ゼロショット画像分類のパフォーマンス 17

18.

2. 論文要約 2-4 実験結果 ☆ゼロショット画像分類のパフォーマンス 下流タスクにおいてはGapを閉じた方が性能がいいという話。 18

19.

参考文献 ・Mind the Gap: Understanding the Modality Gap in Multi-modal Contrastive Representation Learning Weixin Liang, Yuhui Zhang, Yongchan Kwon, Serena Yeung, James Zou https://arxiv.org/abs/2203.02053 ・UNDERSTANDING THE MODALITY GAP IN CLIP Peiyang (Yonk) Shi ∗ , Michael Welle, Marten Bj ˚ orkman, Danica Kragic https://openreview.net/pdf?id=8W3KGzw7fNI ・Itʼs Not a Modality Gap: Characterizing and Addressing the Contrastive Gap Abrar Fahim, Alex Murphy, Alona Fyshe https://arxiv.org/abs/2405.18570 ・Learning Transferable Visual Models From Natural Language Supervision Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, Ilya Sutskever https://arxiv.org/abs/2103.00020 https://openai.com/index/clip/ 19

20.

補足資料

21.

初期時のgapに関して Modelでも重み初期値が違うだけで、同じデータでも埋め込み空間に違いが出ること示している。

22.

最適化とgapに関して 温度パラメータによってgapに開き具合が変わる。 また、gapを埋めようとすると損失が大きくなってしまう場合がある。 →最適化しようとするとgapが保持または促進される。

23.

初期時のgapに関して 画像埋め込みをX、テキスト埋め込みをYとしたときに、Yʼ = WYとなる直行行列を用意。 XとYʼ の距離が最小になるようにマルチモーダルコントラスティブ損失を適応する。 これで、初期時にGapのない状態を作れる。ってことだと理解している。