【DL輪読会】Non-Linguistic Supervision for Contrastive Learning of Sentence Embeddings

302 Views

January 13, 23

#@deep learning jp #Deep Learning #Contrastive Learning #Multimodal Learning #Sentence Embeddings #Supervised Learning

スライド概要

2023/1/13
Deep Learning JP
http://deeplearning.jp/seminar-2/

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 89.4K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 64.2K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 60.7K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 45.3K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 44.4K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 43.3K

各ページのテキスト

DEEP LEARNING JP [DL Papers] Non-Linguistic Supervision for Contrastive Learning of Sentence Embeddings 言語モデル学習のマルチモーダル対照推定法で、モーダル間の対応例が不要な手法山本貴之（ヤフー株式会社） http://deeplearning.jp/ 1

http://deeplearning.jp/

書誌情報タイトル： Non-Linguistic Supervision for Contrastive Learning of Sentence Embeddings 言語モデル学習のマルチモーダル対照推定法で、モーダル間の対応例が不要な手法 NeurIPS 2022 https://arxiv.org/abs/2209.09433 著者：概要：言語意味理解モデルSimCSEに画像や音声のモーダルを追加した対照推定で精度向上ポイントは、モーダル間の対応例が「不要」である点選定理由：マルチモーダル学習で、対応例「不要」という事に対する興味公式実装： https://github.com/yiren-jian/NonLing-CSE ※出典記載の無い図表は本論文からの引用 2

はじめに現状 ▍ 言語意味埋込学習現在の最高性能は SimCSE ▍ SimCSEは教師なしで学習可能だが最高精度は教師ありモデル ※「教師なし」＝「自己教師あり」課題解決策 ▍ 教師ありはラベル付データの質が重要 ▍ ラベル付きは低資源言語では厳しい ▍ 画像や音声の他モーダルデータも活用し精度を向上 ▍ 教師なしで精度と汎化性能を上げたい 3

研究の貢献 VisualCSEの概要【提案手法】 ▊ 研究の貢献 ▊ ▍ 学習済SimCSEをさらに改善する ▍ 画像などの他モーダルデータも活用しファインチューニング ▍ モーダル間で意味的な「対」が不要 ▍ マルチタスク損失で汎化性能向上 4

前提となる関連研究 5

関連研究 Supervised Contrastive Learning (2020) https://arxiv.org/abs/2004.11362 6

https://arxiv.org/abs/2004.11362

関連研究 Supervised Contrastive Learning (2020) 提案手法Supervised Contrastive(=SupCon)損失関数を用いたAccuracy SupCon損失提案手法 SupCon損失は一貫してクロスエントロピーを上回る https://arxiv.org/abs/2004.11362 7

https://arxiv.org/abs/2004.11362

関連研究 Supervised Contrastive Learning (2020) 輪読論文で使われるので重要【既存手法】自己教師あり対照推定【提案手法】 Supervised Contrastive（SupCon）この犬の扱いが違う ▍ 正例ペアは点線部の2枚 Anchor画像からAugmentationしたもの ▍ 正例クラスタは点線部の3枚（図の場合）左記に加え、正解ラベルで同クラスタのもの https://arxiv.org/abs/2004.11362 8

https://arxiv.org/abs/2004.11362

関連研究 Supervised Contrastive Learning (2020) 学習用データセットの作り方 N個のデータセット「バッチ」 2N個に拡張「マルチビューバッチ」 dog dog dog cat cat dog elephant cat https://arxiv.org/abs/2004.11362 Augument Augument cat dog ⋮ マルチビューバッチを2回作成 iとjの2系列とする j系列 i系列 dog dog dog dog cat cat cat cat dog dog dog dog dog elephant elephant elephant elephant elephant elephant cat cat cat cat cat cat 9

https://arxiv.org/abs/2004.11362

10.

関連研究 Supervised Contrastive Learning (2020) 【既存手法】自己教師あり対照推定【提案手法】 SupCon損失関数追加部 Labels部正例ペア温度τ ※ 自分対自分除外全組合せ追加部 ※ ※ 自分除外温度付Softmax式クロスエントロピー式 ▍ 正例ペアを１に近づけ、負例群を０に近づける損失関数マルチビューバッチ内のi自身以外の正の組カーディナリティー（＝正の組の数） ▍ がlogの外か内で、outとinの２つの式がある ▍ 温度付Softmaxとクロスエントロピーの組合せ式。Softmaxなので正例を1に近づけると自動的に負例は0に近づく。 ▍ 式の主な変更箇所は ▍ ミニバッチ内のi番目の正例ペアSoftmaxを最大化する ▍ 正の組が多いと値が大きくなるので ▍ ▍ 追加部と記載した部分はi自身以外の正の組の数だけ、温度付Softmax&クロスエントロピーを加算するという事はlog内に https://arxiv.org/abs/2004.11362 で割り正規化がある為勾配に影響なく正規化効果なし 10

https://arxiv.org/abs/2004.11362

11.

関連研究 Pretrained Transformers As Universal Computation Engines (2021) ▊ サマリ ▊ ▍ 学習済言語モデルのパラメータ固定(FPT)で、画像認識等、他モーダルタスクで活用する研究 ▍ 当研究にインスピレーションを受け、輪読論文に繋がった Frozen Pretrained Transformer (FPT) 学習対象重み固定学習対象重み固定学習対象 Scale・Bias 学習対象学習対象 Scale・Bias ※全結合層 ▊ 詳細 ▊ ▍ セルフアテンション(=Multi-Head Attention) & FeedForward層の重みは固定（パラメータの大半はここ） ▍ Embedding層、出力層、LayerNormのScaleとBiasのみ学習対象としファインチューニング https://arxiv.org/abs/2103.05247 11

https://arxiv.org/abs/2103.05247

12.

関連研究 Pretrained Transformers As Universal Computation Engines (2021) ▊ 結果 ▊ ▍ 青のFPT(提案手法)が、完全に学習したTransformer(オレンジ)やLSTM(グレー)に比較し高い性能論文に「高い性能」と書かれているが、オレンジとは同等とも言える https://arxiv.org/abs/2103.05247 12

https://arxiv.org/abs/2103.05247

13.

関連研究 Pretrained Transformers As Universal Computation Engines (2021) 学習の収束にかかる勾配ステップ数提案手法Transformer ランダム初期化Transformer ▊ 結果 ▊ ▍ FPT(提案手法)が、ランダムに初期化したTransformerより、１～40倍学習が高速 https://arxiv.org/abs/2103.05247 13

https://arxiv.org/abs/2103.05247

14.

輪読論文に戻る 14

15.

【再掲】はじめに現状 ▍ 言語意味埋込学習現在の最高性能は SimCSE ▍ SimCSEは教師なしで学習可能だが最高精度は教師ありモデル ※「教師なし」＝「自己教師あり」課題解決策 ▍ 教師ありはラベル付データの質が重要 ▍ ラベル付きは低資源言語では厳しい ▍ 画像や音声の他モーダルデータも活用し精度を向上 ▍ 教師なしで精度と汎化性能を上げたい 15

16.

モデル構造 VisualCSEの概要【提案手法】 ▊ 学習のポイント ▊ ▍ BERT-base部（学習済SimCSE）にテキスト×画像でファインチューニング ▍ テキスト×画像→VisualCSEと呼ぶ ▍ テキスト×音声→AudioCSEと呼ぶ ▍ モダリティー間は、対である必要はない ▍ テキストはSimCLR損失関数を使う ▍ 画像や音声はSupCon損失関数を使う ▍ テキストでパラメータ更新1回 →画像でパラメータ更新1回と繰り返す 16

17.

学習手順 ▊ 具体的手順 ▊ ▍ ミニバッチ内でテキストと画像を繰り返す ▍ 学習するモデルは一つの言語モデルLM ▍ テキストをミニバッチ分取得 ▍ DropoutでAugし正例作成 ▍ SimCLR損失で勾配計算 ▍ 勾配に基づきLMのパラメータ更新 ▍ 画像はクラスタラベルを使い ▍ VisionTransforerでエンベディング ▍ SupCon損失で同一クラスタを正例とし ▍ 勾配計算 ▍ 勾配に基づきLMのパラメータ更新 17

18.

損失関数 ▍ 教師ありと教師なし、テキストと画像、それぞれについて損失関数を提案している教師なし SimCLR損失教師あり SupCon損失 ※自己教師あり ※同一クラスタを正例とするテキスト画像当論文の実験では、水色背景部分の式を使用 18

19.

損失関数 ▊ 関連研究のSupCon損失との比較 ▊ 輪読者によるコメント当論文のSubCon損失は、関連研究のSupCon損失の２つの内、Lsup,inがベース。これは、関連研究では精度が悪い方である。理由はlogの内部にp(i)が入っているため、勾配に寄与できない為。当論文ではこの部分を改良したと思われる。分母を負例のみに限定する事で、 p(i)で割る部分を削除可能にし、より高い精度を実現できたと推定される。ただし、この式の導出過程は詳しく記載されていない。ミニバッチ内ループ同一クラスタペアループ正例同一クラスタペア関連研究のSupCon損失 Supervised Contrastive Learning https://arxiv.org/abs/2004.11362 同一クラスタペアほぼ負例正例ペアは全体に対して少ない前提だと負例が大半で、ほぼ負例と考えられるミニバッチ内ループ同一クラスタペアループ正例正例当論文のSupCon損失この損失関数導出の詳細は論文に記載が無い負例のみ分子が正例で、分母が負例という基本構造は同じ明示的に負例のみを加算 19

https://arxiv.org/abs/2004.11362

20.

実験設定項目 ▍ 言語モデル内容 ▍ 学習済SimCSE（BERT-base-uncased・RoBERTa-base・RoBERTa-large） ▍ テキストデータセット ▍ 教師なし：Wikipedia英語 100K 文（※1） ▍ 画像データセット ▍ 教師あり：ImageNet 60クラス×500枚（※1） ▍ 学習設定 ▍ １Epochファインチューニング。バッチサイズと学習率はグリッドサーチ ▍ 評価指標 ▍ ７つの文章意味類似度（STS）タスクで評価 ※ 「教師なし」＝「自己教師あり」 ※1 データセットからダウンサンプリングしている 20

21.

実験結果 VisualCSEの実験結果スピアマン相関提案手法提案手法提案手法 ▊ 総合結果 ▊ ▍ SimCSEの教師なしに対して、凌駕する性能 ▍ テキスト以外のモダリティーを同時に学習し、テキストの性能が向上 ▍ モダリティー間の対になる例を必要とせず、性能が向上 ※「教師なし」＝「自己教師あり」 21

22.

実験結果言語によるVisualCSEの効果の違い提案手法提案手法提案手法 +4.98改善提案手法 ▊ 言語による違い ▊ ▍ いずれの言語も改善が見られた ▍ ロシア語のような低資源言語において改善が著しい 22

23.

実験結果教師ありSimCSEをベースに、他モダリティー活用で改善できるかを実験した結果スピアマン相関提案手法提案手法 ▊ 結果 ▊ ▍ 改善はしているものの、改善幅が小さい ▍ 他モダリティー活用で、教師ありSimCSEの改善には寄与できない（と結論づけている） 23

24.

実験結果 ▊ 下流タスク転移学習 ▊ ▍ 下流タスクにもうまく適用できている提案手法提案手法 ▍ 改善はわずか提案手法提案手法提案手法提案手法略記タスク内容 MR 多点スケールのセンチメント分析。Good, Badではなく点数で処理 CR 口コミレビュー文章の要約。製品の特長と、肯定的か否定的かを抽出 SUBJ 口コミレビュー文章のセンチメント分析。主観部分のみを抽出 MPQA 言語中の意見、感情、推測、評価などの部分のコーパスアノテーション SST 長いフレーズの文章の、感情分析 TREC 文法的か、非文法的かを判断する MRPC 言い換え文の同定 24

25.

分析 ▍ VisualCSEの画像モーダルの効果と、教師ありSimCSE(81.6)のNLIデータセットへの依存を分析 NLIデータセットのサイズに対する感度分析 NLIデータサイズ30kでVisualCSEと同等性能 NLIデータセットのノイズに対する感度分析 [削除比率, 挿入, 入替] ランダム削除40%程度でVisualCSEを下回る ▍ 教師ありSimCSEの精度はNLIデータセットが高品質な事に大きく依存している 25

26.

分析埋込のalignとuniform評価 Ba d ▍ align=正のペアの距離の近さ ▍ uniform＝表現の散らばりの一様性赤文字:提案手法 o Go d ▍ 提案手法はクラスタリング性能が向上している（基本的にalignで測定する為） ▍ uniformの悪化は、表現空間でクループ化されている可能性（今後の研究課題） 26

27.

まとめ ▊ 結論 ▊ ▍ テキストだけでなく、非言語領域からの対ではない例を加えて対照推定する事で、テキスト表現学習を改善させるフレームワークを提案 ▍ 非言語領域のモダリティにとらわれない ▍ 低資源言語に特に効果的 ▊ 感想 ▊ ▍ SupCon損失関数に至る詳細が説明されておらず、関連研究からの改良ロジックが想像の域を超えない ▍ 提案手法の本題の実験設定と、アブレーションなども含めた一連の実験設定が一緒に記載されており、フレームワークとしての一連の事項は理解できるが、提案手法を正しく捉えているかは要詳細調査 ▍ 対ではない例で学習し精度向上するが、モーダル間の関係性が対でモデル内に表現されているか興味あり ▍ 一部でも対の情報を加える事で、より精度向上やモーダル間の関係性表現向上に寄与しないか興味あり 27