査読論文で読むプロンプト・エージェント・ハーネス・PoC

>100 Views

June 14, 26

#ai

スライド概要

profile-image

何卒よろしくお願い申し上げます。 一流のIT研修講師を目指し、日々研鑽を続けております。 本資料は外部公開用としてご提供するものです。

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

うさうさ研修工房 🐰 実務で使う文系エンジニア向け 査読論文で読む プロンプト・エージェント・ ハーネス・PoC ⓪基本 → ①エージェント → ②プロンプト工学 → ③ハーネス → ④PoC 国内・海外の査読済み論文を、図解(左)+要点(右)+参考URLで。 「面白きこともなき世を面白く」

2.

本資料の地図 & 出典の読み方 各テーマを「図解(左)→ 要点(右)→ 参考URL」で1枚ずつ。出典は査読の有無・国内/海外を明示。 # テーマ 代表論文(短縮) 掲載先・年 区分 ⓪ プロンプト設計の基本 Pre-train, Prompt, and Predict(サーベイ) ACM Comp. Surv. 2023 海外・査読 ① AIエージェント ReAct(考える+行動) ICLR 2023 海外・査読 ② プロンプトエンジニアリング Chain-of-Thought(思考の連鎖) NeurIPS 2022 海外・査読 ③ ハーネスエンジニアリング SWE-agent:Agent-Computer Interface NeurIPS 2024 海外・査読 ④ PoC(実証〜本番化) Hidden Technical Debt in ML NeurIPS 2015 海外・査読 + 国内の査読研究 推論コーパス/LLM評価バイアス 自然言語処理 2025 国内・査読有 用語メモ 「ハーネスエンジニアリング」は実務での呼び名。査読研究では Agent-Computer Interface(エージェントと道具・環境の接続層)として、その設 計が性能を大きく左右することが示されています。

3.

⓪ プロンプト設計の基本理解 査読付き 海外 Liu et al. 2023 “Pre-train, Prompt, and Predict” ・ ACM Computing Surveys 図解:タスクごとの学習 → プロンプトで1モデル多用途 論文の要点 従来:タスクごとに専用モデル(再学習) • 「プロンプトベース学習」という新パラダイムを体系 化 分類器 要約器 QA器 • P(y|x)を学ぶのでなく、入力をテンプレートに整形 • 事前学習LMが穴を埋め、ゼロ/少数例で多タスク化 • プロンプト設計の用語・型を統一的に整理 プロンプト方式:1つの事前学習モデル+プロンプト プロンプト 分類/要約/QA 共通の 事前学習LM 各タスク の出力 実務での意味 “プロンプトを設計する”という 発想の出発点。 参考URL:https://dl.acm.org/doi/10.1145/3560815 (DOI: 10.1145/3560815)

4.

① AIエージェント:考えて行動する 査読付き 海外 Yao et al. 2023 “ReAct” ・ ICLR 2023 図解:考える→行動→観察 をくり返す(ReActループ) 論文の要点 • 推論(考える)と行動(ツール実行)を交互に行う枠組 み Thought 考える Action 行動(検索/ツール) Observation 観察(結果) • 途中の思考が計画の修正・例外処理を助ける • 行動で外部知識(検索/環境)にアクセスし幻覚を抑 制 • 推論のみ・行動のみより高性能で説明可能 くり返し(必要な情報がそろうまで) 外部ツール・環境(検索/API) 参考URL:https://openreview.net/forum?id=WE_vluYUL-X (ICLR 2023 / arXiv:2210.03629) 実務での意味 “ツールを使うAI”設計の基本 パターン。

5.

② プロンプトエンジニアリング:思考の連鎖 査読付き 海外 Wei et al. 2022 “Chain-of-Thought Prompting” ・ NeurIPS 2022 図解:途中の推論を書かせると正答率が上がる 論文の要点 通常プロンプト • 途中の推論ステップを生成させる簡単な手法 問題 答え • 少数のCoT例を示すだけ(追加学習は不要) ✗ 誤りやすい • 算数・常識・記号推論で大幅に精度向上 • 効果は十分大きいモデルで顕著に現れる Chain-of-Thought(思考の連鎖) 問題 ①…→②…→③… (途中の推論) 答え ✓ 「順を追って考えよう」と例示するだけで、算数・常識・記号推論が改善(大規模モデルで顕著)。 実務での意味 難しい質問は“考える過程”を 促すと精度が上がる。 参考URL:https://proceedings.neurips.cc/paper/2022/hash/9d5609613524ecf4f15af0f7b31abca4-Abstract-Conference.html

6.

③ ハーネスエンジニアリング:道具との接続層 査読付き 海外 Yang et al. 2024 “SWE-agent (ACI)” ・ NeurIPS 2024 図解:エージェントと道具の“接続層(ACI=ハーネス)”が鍵 論文の要点 • エージェントは“新種の利用者”と捉え専用UIを設計 • ACI=LLMと計算機の間の抽象化層(ハーネス) LLM エージェント ACI / ハーネス 整形された操作・観測 コンピュータ シェル/ファイル/テスト • 検索・編集・テスト実行を扱いやすく整形 • 同じLLMでも接続層の設計で性能が大きく変化 効果(SWE-bench): 生のシェル 3.8% → ACI設計で 12.5% (同じLLMでも“足場”で 激変) 参考URL:https://openreview.net/forum?id=mXpq6ut8J3 (NeurIPS 2024 / arXiv:2405.15793 ) 実務での意味 モデル選びより“道具の渡し 方”が効く場面は多い。

7.

④ PoC:実証から本番化でつまずく理由 査読付き 海外 Sculley et al. 2015 “Hidden Technical Debt in ML” ・ NeurIPS 2015 図解:MLコードはごく一部。周辺システムが大半 データ収集 データ検証 論文の要点 特徴抽出 設定管理 • “速く作れる”ML PoCは無料ではない、と警告 • 実システムでは保守コストが膨大になりがち • 境界侵食・もつれ・隠れた依存などの負債要因 • ML本体は全体のごく一部に過ぎない ML コード リソース管理 監視 サービング 分析ツール PoCが本番で詰まる主因=この“周辺の技術的負債”(データ依存・設定・監視…)。 実務での意味 PoC段階から本番化の負債を 見越して設計する。 参考URL:https://proceedings.neurips.cc/paper/2015/hash/86df7dcfd896fcaf2674f757a2463eba-Abstract.html

8.

+ 国内の査読研究から(自然言語処理 誌) 国内・査読有 国内=日本の学会誌(言語処理学会)。いずれも一般論文(査読有)。 ②に関連:LLMに“推論”を教える ③/評価に関連:LLM採点の偏り緩和 森下ら 2025 ・ 自然言語処理 32(2) 520–571 大井ら 2025 ・ 自然言語処理 32(2) 480–496 ルールで 論理推論を 自動生成 LLMで 学習 推論力 向上 同義でも 尤度が違う2文 LLM評価 が歪む • LLMは知識は豊富だが新規の“推論”が苦手 • LLM-as-a-Judge には尤度バイアスがある • ルールベースで人工の論理推論データを生成 • 強いバイアス事例をFew-shotに使い緩和 • それを学習させ推論能力を底上げ • 人手評価との順位相関が向上 URL: doi.org/10.5715/jnlp.32.520 URL: doi.org/10.5715/jnlp.32.480 ※ いずれもLLMの“評価”や“推論”という実務直結のテーマ。国内研究も一次情報で追えます。 Few-shot で補正

9.

まとめ & 出典一覧(査読済み) 流れ プロンプトで指示(⓪②)→エージェントが考えて行動(①)→ハーネスで道具を渡す(③)→PoCは本番化の負債に注意(④)。 ⓪ Liu et al. 2023, Pre-train, Prompt, and Predict, ACM Comp. Surv. 55(9) [海外・査読] dl.acm.org/doi/10.1145/3560815 ① Yao et al. 2023, ReAct, ICLR 2023 [海外・査読] openreview.net/forum?id=WE_vluYUL-X ② Wei et al. 2022, Chain-of-Thought Prompting, NeurIPS 2022 [海外・査読] proceedings.neurips.cc/paper/2022/hash/9d5609613524ecf4f15af0f7b31abca4-Abstract-Conference.html ③ Yang et al. 2024, SWE-agent (Agent-Computer Interface), NeurIPS 2024 [海外・査読] openreview.net/forum?id=mXpq6ut8J3 ④ Sculley et al. 2015, Hidden Technical Debt in ML, NeurIPS 2015 [海外・査読] proceedings.neurips.cc/paper/2015/hash/86df7dcfd896fcaf2674f757a2463eba-Abstract.html + 森下ら 2025 / 大井ら 2025, 自然言語処理 32(2) [国内・査読有] doi.org/10.5715/jnlp.32.520・ doi.org/10.5715/jnlp.32.480 ※ 図解は各論文の要点を簡略化した模式図です(細部・数値は原文を参照)。「ハーネス」はACIに対応する実務用語。