138 Views
September 18, 25
スライド概要
DL輪読会資料
Instruction Tuning With Loss Over Instructions Ryohei Yasuda, IBM Systems Engineering 1
書誌情報 • Instruction Tuning With Loss Over Instructions (2024) • 著者 – ZhengyanShi1,Adam X. Yang, Bin Wu, Laurence Aitchison, Emine Yilmaz, Aldo Lipani • 採択先 – 38th Conference on Neural Information Processing Systems (NeurIPS 2024) • リンク – https://arxiv.org/pdf/2405.14394 – https://github.com/ShiZhengyan/InstructionModelling 2
論文概要 3
この論文を選んだ理由 • シンプルながら有効な拡張 Instruction 部分も Loss に含める → 「指示を読む力」を強化 • 実務との関連 業務で直面している「長い命令 × 誤解リスク」の課題と重なる 4
研究背景と問題設定 5
そもそも • Instruction Tuningとは何か? • 定義:指示(Instruction)・入力文(Input)・期待される出力(Output)のペアを大量に学習させ、 LLM が自然言語の指示に従えるようにする手法 • 目的:ユーザーが自然言語で与える多様なタスクに対応し、特定の形式を覚えなくても「指示→応 答」が可能になる。 • Instruction Tuningのイメージ Instruction: 次の文章を要約して下さい Prompt:人工知能(AI)は近年急速に進歩してお り、自然言語処理、画像認識、音声認識などの 分野で人間を凌駕する性能を示している。 Output: AIは他分野で人間を超える性能を示して いる。 LLM 大量の「指示と正解」を繰り返し学習 6
Instruction Modelingとは なぜInstruction Modelingが必要なのか Instruction Tuningの課題 ・損失は Output のみに適用 → Instruction(指示)や Input(入力文)は 無視されがち ・長い指示+短い出力のデータでは学習がアンバランスに なりやすい → モデルが「指示を読む」力が弱まる ・少数サンプル学習(Low-resource)では過学習しやすい → データにピッタリ合わせても汎用性が落ちる Instruction Modelingのアプローチ Instruction や Input にも損失を適用 → 指示理解を強化 長い指示+短い出力に強い → AlpacaEval で 100%以上改善 少数データでも効果的(SAH) → 過学習を抑制、未知タスクへの汎化性能UP 既存手法の補完 → 置き換えではなく弱点を補強する立ち位置 Instruction Tuning の弱点を補い、少ないデータや「長い指示+短い出力」のような 不均衡データでも性能を高められる実践的アプローチ 7
損失関数の適応範囲の違い Instruction Tuning Instruction Modeling Instruction: 次の文章を要約して下さい Instruction: 次の文章を要約して下さい Prompt:人工知能(AI)は近年急速に進歩しており、自然 言語処理、画像認識、音声認識などの分野で人間を凌駕す る性能を示している。 Prompt:人工知能(AI)は近年急速に進歩しており、自然 言語処理、画像認識、音声認識などの分野で人間を凌駕す る性能を示している。 Output: AIは他分野で人間を超える性能を示している。 Output: AIは他分野で人間を超える性能を示している。 Output のみを損失関数の対象として誤差 を最小化する InstructionとPrompt 部分も 損失関数の対象として誤差を最小化する。 8
提案手法の詳細 9
従来の手法 10
問題点 11
実験設定 13
実験結果 14
効果要因分析 15
効果メカニズム:過学習の抑制 16
関連研究 17
関連論文 • FLAN V2(Wei et al., 2022) – 100万以上のQAペアを用いた大規模Instruction Tuning – ゼロショット・少数ショット性能を大幅に改善 • Natural Instructions(Mishra et al., 2022) – 61タスク・193kサンプル – 多様なInstructionデータで汎化性能を強化 • LIMA(Zhou et al., 2023) – 高品質1kプロンプトのみでInstruction Tuning – 「少量・高品質」でも十分な性能を実証 AlpaGasus / LESS(2023) • – LLMによるデータ選別(品質判定・勾配情報)を導入 – データ質の向上を重視するアプローチ • RLHF + LM Objective(Ouyang et al., 2022 ほか) – Alignmentタスクと次トークン予測を組み合わせ – 過学習を防ぎ、キャリブレーション精度を改善 18
考察と業務への適応 19
まとめ 20
業務応用の可能性 • 私の業務からの視点 – 実務では コードから仕様書を生成 するタスクに携わっている – Instruction 部分は長大化しがち: • 「この構成で」「このツールを使って」「このライブラリは禁止」「出力はMarkdown形式で」など 制約条件が多い – Output(仕様書やMermaid図)は比較的短くまとまる • 考えたこと – 本研究の手法は 「Instruction 部分をLoss対象に含める」 ことで → モデルが 制約条件を厳密に守る ようになる可能性 – 業務で直面している「長い指示を誤解して出力が崩れる問題」に効きそう • ディスカッション – 仕様書生成以外に、制約条件の遵守が重要な業務タスク にはどのように応用できるでしょうか? – 皆さんの研究・業務ではどのようなケースが思い浮かびますか? 21