【DL輪読会】Instruction Tuning With Loss Over Instructions

578 Views

September 18, 25

#Instruction Modeling #指示チューニング #大規模言語モデル #損失関数 #指示理解

スライド概要

Deep Learning JP

@DeepLearning2023

スライド一覧

DL輪読会資料

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【DL輪読会】KAN: Kolmogorov–Arnold Networks

Deep Learning JP 89.3K

【拡散モデル勉強会】拡散モデルの数理

Deep Learning JP 63.9K

【DL輪読会】Evolutionary Optimization of Model Merging Recipes モデルマージの進化的最適化

Deep Learning JP 60.6K

【拡散モデル勉強会】Introduction to Diffusion Models

Deep Learning JP 44.9K

【DL輪読会】Conditional Flow Matching

Deep Learning JP 43.7K

【DL輪読会】Cosmos World Foundation Model Platform for Physical AI

Deep Learning JP 42.2K

各ページのテキスト

Instruction Tuning With Loss Over Instructions Ryohei Yasuda, IBM Systems Engineering 1

書誌情報 • Instruction Tuning With Loss Over Instructions (2024) • 著者 – ZhengyanShi1,Adam X. Yang, Bin Wu, Laurence Aitchison, Emine Yilmaz, Aldo Lipani • 採択先 – 38th Conference on Neural Information Processing Systems (NeurIPS 2024) • リンク – https://arxiv.org/pdf/2405.14394 – https://github.com/ShiZhengyan/InstructionModelling 2

https://arxiv.org/pdf/2405.14394

論文概要 3

この論文を選んだ理由 • シンプルながら有効な拡張 Instruction 部分も Loss に含める → 「指示を読む力」を強化 • 実務との関連業務で直面している「長い命令 × 誤解リスク」の課題と重なる 4

研究背景と問題設定 5

そもそも • Instruction Tuningとは何か？ • 定義：指示（Instruction）・入力文（Input）・期待される出力（Output）のペアを大量に学習させ、 LLM が自然言語の指示に従えるようにする手法 • 目的：ユーザーが自然言語で与える多様なタスクに対応し、特定の形式を覚えなくても「指示→応答」が可能になる。 • Instruction Tuningのイメージ Instruction: 次の文章を要約して下さい Prompt:人工知能（AI）は近年急速に進歩しており、自然言語処理、画像認識、音声認識などの分野で人間を凌駕する性能を示している。 Output: AIは他分野で人間を超える性能を示している。 LLM 大量の「指示と正解」を繰り返し学習 6

Instruction ModelingとはなぜInstruction Modelingが必要なのか Instruction Tuningの課題・損失は Output のみに適用 → Instruction（指示）や Input（入力文）は無視されがち・長い指示＋短い出力のデータでは学習がアンバランスになりやすい → モデルが「指示を読む」力が弱まる・少数サンプル学習（Low-resource）では過学習しやすい → データにピッタリ合わせても汎用性が落ちる Instruction Modelingのアプローチ Instruction や Input にも損失を適用 → 指示理解を強化長い指示＋短い出力に強い → AlpacaEval で 100%以上改善少数データでも効果的（SAH） → 過学習を抑制、未知タスクへの汎化性能UP 既存手法の補完 → 置き換えではなく弱点を補強する立ち位置 Instruction Tuning の弱点を補い、少ないデータや「長い指示＋短い出力」のような不均衡データでも性能を高められる実践的アプローチ 7

損失関数の適応範囲の違い Instruction Tuning Instruction Modeling Instruction: 次の文章を要約して下さい Instruction: 次の文章を要約して下さい Prompt:人工知能（AI）は近年急速に進歩しており、自然言語処理、画像認識、音声認識などの分野で人間を凌駕する性能を示している。 Prompt:人工知能（AI）は近年急速に進歩しており、自然言語処理、画像認識、音声認識などの分野で人間を凌駕する性能を示している。 Output: AIは他分野で人間を超える性能を示している。 Output: AIは他分野で人間を超える性能を示している。 Output のみを損失関数の対象として誤差を最小化する InstructionとPrompt 部分も損失関数の対象として誤差を最小化する。 8

提案手法の詳細 9

https://arxiv.org/pdf/2405.14394

10.

従来の手法 10

11.

問題点 11

12.

実験 12

https://arxiv.org/pdf/2405.14394

13.

実験設定 13

14.

実験結果 14

15.

効果要因分析 15

16.

効果メカニズム：過学習の抑制 16

17.

関連研究 17

https://arxiv.org/pdf/2405.14394

18.

関連論文 • FLAN V2（Wei et al., 2022） – 100万以上のQAペアを用いた大規模Instruction Tuning – ゼロショット・少数ショット性能を大幅に改善 • Natural Instructions（Mishra et al., 2022） – 61タスク・193kサンプル – 多様なInstructionデータで汎化性能を強化 • LIMA（Zhou et al., 2023） – 高品質1kプロンプトのみでInstruction Tuning – 「少量・高品質」でも十分な性能を実証 AlpaGasus / LESS（2023） • – LLMによるデータ選別（品質判定・勾配情報）を導入 – データ質の向上を重視するアプローチ • RLHF + LM Objective（Ouyang et al., 2022 ほか） – Alignmentタスクと次トークン予測を組み合わせ – 過学習を防ぎ、キャリブレーション精度を改善 18

19.

考察と業務への適応 19

https://arxiv.org/pdf/2405.14394

20.

まとめ 20

21.

業務応用の可能性 • 私の業務からの視点 – 実務ではコードから仕様書を生成するタスクに携わっている – Instruction 部分は長大化しがち： • 「この構成で」「このツールを使って」「このライブラリは禁止」「出力はMarkdown形式で」など制約条件が多い – Output（仕様書やMermaid図）は比較的短くまとまる • 考えたこと – 本研究の手法は「Instruction 部分をLoss対象に含める」ことで → モデルが制約条件を厳密に守るようになる可能性 – 業務で直面している「長い指示を誤解して出力が崩れる問題」に効きそう • ディスカッション – 仕様書生成以外に、制約条件の遵守が重要な業務タスクにはどのように応用できるでしょうか？ – 皆さんの研究・業務ではどのようなケースが思い浮かびますか？ 21