【DL輪読会】Inference-Time Intervention: Eliciting Truthful Answers from a Language Model

1.8K Views

June 20, 24

スライド概要

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] “Inference-Time Intervention: Eliciting Truthful Answers from a Language Model” (NeurIPS 2023 ) Okimura Itsuki http://deeplearning.jp/ 1

2.

アジェンダ 1. 書誌情報 2. 概要 3. 背景 4. 問題意識 5. 方法 6. 実験設定 7. 結果 8. 考察 2

3.

1 書誌情報 タイトル: Inference-Time Intervention: Eliciting Truthful Answers from a Language Model 出典: NeurIPS 2023 (Spotlight) https://openreview.net/forum?id=aLLuYpn83y 著者: Kenneth Li, Oam Patel, Fernanda Viégas, Hanspeter Pfister, Martin Wattenberg (Havard University) 選んだ理由:文単位での推論介入にうまく成功していた 3

4.

2 概要 • 言語モデルにおいて、モデルの内部的には知識を持っているが、 それを標準的な方法では引き出せない場合がある事が知られている。 • このギャップを埋めるため、事実性に関連しうるヘッドと方向を特定し、 推論中に事実性を高める方向への介入を行う推論時介入(ITI)を提案。 • TruthfulQAにおける検証において、Alpacaと呼ばれるモデルでは、 ITIにより出力の事実性が32.5%から65.1%に向上するなど、介入の有効性が 確認できた。 • 関連する分布の異なるデータセットでも事実性に関する性能の向上を確認 4

5.

3 背景 言語モデルにおけるハルシネーション • ハルシネーション(Hallucination): モデルが一見正しく見えるが、 実世界と比較すると 全く事実では異なる事柄について記述し てしまう現象 • 右図では赤のモデルがハルシネーション を含んだ生成を行ってしまっている 5

6.

3 背景 Language Models (Mostly) Know What They Know(2022) • モデルの出力について自分で 主張の妥当性を評価させた場合、 正しい回答を出力した場合と 誤った回答を出力をしたかを 一定区別することができることを 示す →モデルは出力の見た目以上に 実世界の正誤を含む 多くの知識についての能力を 内部的に持つことができている 6

7.

4 問題意識 モデルの事実性に関して未だ不明な点は存在する モデル内部の能力はどのようにして発揮させる事ができるのか? 本論文ではモデルのそれぞれのアテンションヘッドへの 活性化介入*を通じて、モデルの事実性を高める事が可能かを 検証する *活性化介入:モデル内部の活性化値を操作した上で出力を行う介入 7

8.

5 方法 それぞれのAttentionヘッドが埋め込みが真実をどの程度捉えるか確認 • プロービング: 埋め込み表現の情報から目的のタスク についての分類器を訓練することで、 その埋め込み中にタスクに関する 情報が含まれるかを検証する手法 • 今回はそれぞれのAttentionヘッドで (入力)質問回答、(出力)真偽の 分類器を訓練し、埋め込みが どの程度その事実性に関する情報をと らえているかを検証 訓練 2値分類: True 線型分類器(プローブ) 埋め込み表現 言語モデル Q: ~~~~ A: ~~~~ 8

9.

5 方法 事実性に寄与する上位のヘッドに対し介入を行い事実性の高い生成を促す • 推論時介入 (Inference-Time Intervention ): 前述のプロービングを通じて、 事実性に寄与する可能性が高い ヘッドに対して、 事実性を高める方向への介入方向 𝑣へ介入を行い、モデル全体の 事実性を強化することを目指す • 実験においては介入を行う ヘッド数𝐾とその介入の強さ 𝛼を 変化させて性能変化を検証する 9

10.

5 方法 介入の方向としては二種類を検証する • プローブ重み方向 (Probe Weight Direction): 各Attentionヘッドの線形プローブの重みベクトル𝑣を介入方向として使用する。 この方法では、プローブが識別した真実な方向に活性化をシフトさせる。 • 質量平均シフト (Mass Mean Shift): 真なサンプルと偽サンプルの活性化の平均ベクトルを計算し、その差 (真実サンプルの平均から偽サンプルの平均へのベクトル)を介入方向とする。 この方法は、サンプルの分布全体に基づいて活性化をシフトさせる。 10

11.

6 実験設定 データセット • TruthfulQA: – 人間が誤りがちな観念に関するQAデータセット – データセット中に質問に対しての、真となる回答と偽となる回答を含む – 介入の学習に全体の5%のデータを用い、評価に全体の5%のデータを用いる モデル • LLaMA-7B • Alpaca-7B、 Vicuna-7B... LlaMA-7B + Instruction-Tuning 評価項目 • True*Informative... 事実かつ情報量のある回答を生成した割合 • MC acc... 多肢選択肢中で比較し、最もPerplexityの高い回答が真だった割合 • (Cross Entropy, KL divergence... 前後でのモデルの動作の変化) 11

12.

7 結果 一部の層においてのみ、事実性に関する情報が含まれる • それぞれの訓練されたプローブの精度を層 の位置ごとに可視化したのが右図 • 多くのヘッドではプローブの精度は50%と ほぼランダムと変わらない程度だが、 一部の層では80%以上の性能となり事実性 を一定とらえている事がわかる • 右図で紺色となるような上位の Attentionヘッドに介入を実施する 12

13.

7 結果 様々なハイパラ設定において推論時介入における事実性の向上が確認 • LLaMA-7Bモデルにおいて、 介入を行うヘッド数𝐾と 介入の強さ 𝛼ごとに示したのが右図 • 多くの設定においてITIによる 生成の事実性の向上を確認 • 多くのAttentionヘッドで強い介入を 行うと”I have no comment.”のような 情報量のない回答をしてしまう模様 13

14.

7 結果 複数の実験設定でも一貫して有効性が発揮されることがわかる • LLaMA-7Bモデルの比較におい て、同量のデータでは SFT以上の効果を確認 • Few-shotの設定やInstructiontuning後のモデルにおいても有 効性が発揮される 14

15.

7 結果 介入方向は質量平均シフトの方が良好な結果を示す • 介入方向としては、プローブ 重み方向、質量平均シフト いずれも向上があったが、 質量平均シフトがより良好な 結果を示す • 質量平均シフトの方が広範な 真実性に関する情報をとらえ られている? 15

16.

8 考察 他のデータセットでの評価でも推論時介入の有効性を確認 • TruthfulQAでの学習したのちに、 分布の異なる他のデータセットで の性能についても追加実験を実施 • NaturalQA、Trivia QA、MMLU において性能の向上が得られた • 他の事実性が必要なデータセット でも一貫して有益な役割を担った 可能性 16

17.

8 考察 推論時介入では一定事実性と有益性でのトレードオフが存在する • 訓練データセットの割合と 介入する強さを変化させて プロットしたのが右図 • データセットに関しては 比較的少量で性能について プラトーになる • 強い介入では事実性の向上と、 回答の情報量の低下が得られ、 トレードオフの存在を確認 17

18.

8 考察 推論時介入はプローブの精度上位のヘッドごとの介入が最も効果的であった • 介入するヘッドについて複数の 設定で比較を行う • 全てのヘッドに介入する場合 (Without selection)やプローブ の重みの絶対値を基準に介入し た場合(Point-wise selection)は t提案手法に性能が劣る • ヘッドごとに介入するスパース な介入が有益だった可能性 18

19.

まとめ • 言語モデルにおいて、モデルの内部的には知識を持っているが、 それを標準的な方法では引き出せない場合がある事が知られている。 • このギャップを埋めるため、事実性に関連しうるヘッドと方向を特定し、 推論中に事実性を高める方向への介入を行う推論時介入(ITI)を提案。 • TruthfulQAにおける検証において、Alpacaと呼ばれるモデルでは、 ITIにより出力の事実性が32.5%から65.1%に向上するなど、介入の有効性が 確認できた。 • 関連する分布の異なるデータセットでも事実性に関する性能の向上を確認 19

20.

感想 ヘッドごとの介入は確かにいいアイディアと感じた反面、 なぜヘッドごとにプローブの精度含めて違いが大きく出るのかの謎は深まる印象。 層ごとの分布をみると、モデルの中間層の関連が高そう →言語間の違いがモデルの序盤、終盤での関連が高かったのとは対照的かも 言語的な内容だとヘッドごとに違いが出るから、層ごとのプローブだと中間層があまりピックアップ されない? 考察が気になることをクリアに書いていてよかった 20

21.

DEEP LEARNING JP [DL Papers] “Inference-Time Intervention: Eliciting Truthful Answers from a Language Model” (NeurIPS 2023 ) Okimura Itsuki http://deeplearning.jp/