【DL輪読会】Instruction Tuning With Loss Over Instructions

138 Views

September 18, 25

スライド概要

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

Instruction Tuning With Loss Over Instructions Ryohei Yasuda, IBM Systems Engineering 1

2.

書誌情報 • Instruction Tuning With Loss Over Instructions (2024) • 著者 – ZhengyanShi1,Adam X. Yang, Bin Wu, Laurence Aitchison, Emine Yilmaz, Aldo Lipani • 採択先 – 38th Conference on Neural Information Processing Systems (NeurIPS 2024) • リンク – https://arxiv.org/pdf/2405.14394 – https://github.com/ShiZhengyan/InstructionModelling 2

3.

論文概要 3

4.

この論文を選んだ理由 • シンプルながら有効な拡張 Instruction 部分も Loss に含める → 「指示を読む力」を強化 • 実務との関連 業務で直面している「長い命令 × 誤解リスク」の課題と重なる 4

5.

研究背景と問題設定 5

6.

そもそも • Instruction Tuningとは何か? • 定義:指示(Instruction)・入力文(Input)・期待される出力(Output)のペアを大量に学習させ、 LLM が自然言語の指示に従えるようにする手法 • 目的:ユーザーが自然言語で与える多様なタスクに対応し、特定の形式を覚えなくても「指示→応 答」が可能になる。 • Instruction Tuningのイメージ Instruction: 次の文章を要約して下さい Prompt:人工知能(AI)は近年急速に進歩してお り、自然言語処理、画像認識、音声認識などの 分野で人間を凌駕する性能を示している。 Output: AIは他分野で人間を超える性能を示して いる。 LLM 大量の「指示と正解」を繰り返し学習 6

7.

Instruction Modelingとは なぜInstruction Modelingが必要なのか Instruction Tuningの課題 ・損失は Output のみに適用 → Instruction(指示)や Input(入力文)は 無視されがち ・長い指示+短い出力のデータでは学習がアンバランスに なりやすい → モデルが「指示を読む」力が弱まる ・少数サンプル学習(Low-resource)では過学習しやすい → データにピッタリ合わせても汎用性が落ちる Instruction Modelingのアプローチ Instruction や Input にも損失を適用 → 指示理解を強化 長い指示+短い出力に強い → AlpacaEval で 100%以上改善 少数データでも効果的(SAH) → 過学習を抑制、未知タスクへの汎化性能UP 既存手法の補完 → 置き換えではなく弱点を補強する立ち位置 Instruction Tuning の弱点を補い、少ないデータや「長い指示+短い出力」のような 不均衡データでも性能を高められる実践的アプローチ 7

8.

損失関数の適応範囲の違い Instruction Tuning Instruction Modeling Instruction: 次の文章を要約して下さい Instruction: 次の文章を要約して下さい Prompt:人工知能(AI)は近年急速に進歩しており、自然 言語処理、画像認識、音声認識などの分野で人間を凌駕す る性能を示している。 Prompt:人工知能(AI)は近年急速に進歩しており、自然 言語処理、画像認識、音声認識などの分野で人間を凌駕す る性能を示している。 Output: AIは他分野で人間を超える性能を示している。 Output: AIは他分野で人間を超える性能を示している。 Output のみを損失関数の対象として誤差 を最小化する InstructionとPrompt 部分も 損失関数の対象として誤差を最小化する。 8

9.

提案手法の詳細 9

10.

従来の手法 10

11.

問題点 11

13.

実験設定 13

14.

実験結果 14

15.

効果要因分析 15

16.

効果メカニズム:過学習の抑制 16

18.

関連論文 • FLAN V2(Wei et al., 2022) – 100万以上のQAペアを用いた大規模Instruction Tuning – ゼロショット・少数ショット性能を大幅に改善 • Natural Instructions(Mishra et al., 2022) – 61タスク・193kサンプル – 多様なInstructionデータで汎化性能を強化 • LIMA(Zhou et al., 2023) – 高品質1kプロンプトのみでInstruction Tuning – 「少量・高品質」でも十分な性能を実証 AlpaGasus / LESS(2023) • – LLMによるデータ選別(品質判定・勾配情報)を導入 – データ質の向上を重視するアプローチ • RLHF + LM Objective(Ouyang et al., 2022 ほか) – Alignmentタスクと次トークン予測を組み合わせ – 過学習を防ぎ、キャリブレーション精度を改善 18

19.

考察と業務への適応 19

20.

まとめ 20

21.

業務応用の可能性 • 私の業務からの視点 – 実務では コードから仕様書を生成 するタスクに携わっている – Instruction 部分は長大化しがち: • 「この構成で」「このツールを使って」「このライブラリは禁止」「出力はMarkdown形式で」など 制約条件が多い – Output(仕様書やMermaid図)は比較的短くまとまる • 考えたこと – 本研究の手法は 「Instruction 部分をLoss対象に含める」 ことで → モデルが 制約条件を厳密に守る ようになる可能性 – 業務で直面している「長い指示を誤解して出力が崩れる問題」に効きそう • ディスカッション – 仕様書生成以外に、制約条件の遵守が重要な業務タスク にはどのように応用できるでしょうか? – 皆さんの研究・業務ではどのようなケースが思い浮かびますか? 21