査読論文で読むプロンプト・エージェント・ハーネス・PoC

>100 Views

June 14, 26

#ai #AIエージェント #プロンプトエンジニアリング #ハーネスエンジニアリング #PoC #査読論文

スライド概要

smile_yukiko_it

@smile_yukiko_it

スライド一覧

何卒よろしくお願い申し上げます。一流のIT研修講師を目指し、日々研鑽を続けております。本資料は外部公開用としてご提供するものです。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

勉強会_ものづくりの6つの原理原則_理系向け6時間_2026_05_24_石黒友季子

ai駆動開発 ai

smile_yukiko_it 786

【公開】質問力研修_新入社員未経験向け

エンジニアコミュニケーション

smile_yukiko_it 405

ハーネスエンジニアリング入門　AIエージェント開発×プロンプト_実務編

smile_yukiko_it 204

ISO規格別_社内SE業務フロー資料

smile_yukiko_it 189

【新卒未経験学生向け】エンジニアコミュニケーションフレーズ集 💬エンジニアのためのコミュニケーションフレーズ集

smile_yukiko_it 171

LPIC3_303_Study

smile_yukiko_it 158

各ページのテキスト

うさうさ研修工房 🐰 実務で使う文系エンジニア向け査読論文で読むプロンプト・エージェント・ハーネス・PoC ⓪基本 → ①エージェント → ②プロンプト工学 → ③ハーネス → ④PoC 国内・海外の査読済み論文を、図解（左）＋要点（右）＋参考URLで。「面白きこともなき世を面白く」

本資料の地図＆出典の読み方各テーマを「図解（左）→ 要点（右）→ 参考URL」で1枚ずつ。出典は査読の有無・国内/海外を明示。 # テーマ代表論文（短縮）掲載先・年区分 ⓪ プロンプト設計の基本 Pre-train, Prompt, and Predict（サーベイ） ACM Comp. Surv. 2023 海外・査読 ① AIエージェント ReAct（考える＋行動） ICLR 2023 海外・査読 ② プロンプトエンジニアリング Chain-of-Thought（思考の連鎖） NeurIPS 2022 海外・査読 ③ ハーネスエンジニアリング SWE-agent：Agent-Computer Interface NeurIPS 2024 海外・査読 ④ PoC（実証〜本番化） Hidden Technical Debt in ML NeurIPS 2015 海外・査読＋国内の査読研究推論コーパス／LLM評価バイアス自然言語処理 2025 国内・査読有用語メモ「ハーネスエンジニアリング」は実務での呼び名。査読研究では Agent-Computer Interface（エージェントと道具・環境の接続層）として、その設計が性能を大きく左右することが示されています。

⓪ プロンプト設計の基本理解査読付き海外 Liu et al. 2023 “Pre-train, Prompt, and Predict” ・ ACM Computing Surveys 図解：タスクごとの学習 → プロンプトで1モデル多用途論文の要点従来：タスクごとに専用モデル（再学習） • 「プロンプトベース学習」という新パラダイムを体系化分類器要約器 QA器 • P(y|x)を学ぶのでなく、入力をテンプレートに整形 • 事前学習LMが穴を埋め、ゼロ/少数例で多タスク化 • プロンプト設計の用語・型を統一的に整理プロンプト方式：1つの事前学習モデル＋プロンプトプロンプト分類/要約/QA 共通の事前学習LM 各タスクの出力実務での意味 “プロンプトを設計する”という発想の出発点。参考URL：https://dl.acm.org/doi/10.1145/3560815 （DOI: 10.1145/3560815）

① AIエージェント：考えて行動する査読付き海外 Yao et al. 2023 “ReAct” ・ ICLR 2023 図解：考える→行動→観察をくり返す（ReActループ）論文の要点 • 推論(考える)と行動(ツール実行)を交互に行う枠組み Thought 考える Action 行動(検索/ツール) Observation 観察(結果) • 途中の思考が計画の修正・例外処理を助ける • 行動で外部知識(検索/環境)にアクセスし幻覚を抑制 • 推論のみ・行動のみより高性能で説明可能くり返し（必要な情報がそろうまで）外部ツール・環境（検索/API）参考URL：https://openreview.net/forum?id=WE_vluYUL-X （ICLR 2023 / arXiv:2210.03629）実務での意味 “ツールを使うAI”設計の基本パターン。

② プロンプトエンジニアリング：思考の連鎖査読付き海外 Wei et al. 2022 “Chain-of-Thought Prompting” ・ NeurIPS 2022 図解：途中の推論を書かせると正答率が上がる論文の要点通常プロンプト • 途中の推論ステップを生成させる簡単な手法問題答え • 少数のCoT例を示すだけ（追加学習は不要） ✗ 誤りやすい • 算数・常識・記号推論で大幅に精度向上 • 効果は十分大きいモデルで顕著に現れる Chain-of-Thought（思考の連鎖）問題 ①…→②…→③… (途中の推論) 答え ✓ 「順を追って考えよう」と例示するだけで、算数・常識・記号推論が改善（大規模モデルで顕著）。実務での意味難しい質問は“考える過程”を促すと精度が上がる。参考URL：https://proceedings.neurips.cc/paper/2022/hash/9d5609613524ecf4f15af0f7b31abca4-Abstract-Conference.html

https://proceedings.neurips.cc/paper/2022/hash/9d5609613524ecf4f15af0f7b31abca4-Abstract-Conference.html

③ ハーネスエンジニアリング：道具との接続層査読付き海外 Yang et al. 2024 “SWE-agent (ACI)” ・ NeurIPS 2024 図解：エージェントと道具の“接続層(ACI＝ハーネス)”が鍵論文の要点 • エージェントは“新種の利用者”と捉え専用UIを設計 • ACI＝LLMと計算機の間の抽象化層（ハーネス） LLM エージェント ACI / ハーネス整形された操作・観測コンピュータシェル/ファイル/テスト • 検索・編集・テスト実行を扱いやすく整形 • 同じLLMでも接続層の設計で性能が大きく変化効果（SWE-bench）：生のシェル 3.8% → ACI設計で 12.5% （同じLLMでも“足場”で激変）参考URL：https://openreview.net/forum?id=mXpq6ut8J3 （NeurIPS 2024 / arXiv:2405.15793 ）実務での意味モデル選びより“道具の渡し方”が効く場面は多い。

④ PoC：実証から本番化でつまずく理由査読付き海外 Sculley et al. 2015 “Hidden Technical Debt in ML” ・ NeurIPS 2015 図解：MLコードはごく一部。周辺システムが大半データ収集データ検証論文の要点特徴抽出設定管理 • “速く作れる”ML PoCは無料ではない、と警告 • 実システムでは保守コストが膨大になりがち • 境界侵食・もつれ・隠れた依存などの負債要因 • ML本体は全体のごく一部に過ぎない ML コードリソース管理監視サービング分析ツール PoCが本番で詰まる主因＝この“周辺の技術的負債”（データ依存・設定・監視…）。実務での意味 PoC段階から本番化の負債を見越して設計する。参考URL：https://proceedings.neurips.cc/paper/2015/hash/86df7dcfd896fcaf2674f757a2463eba-Abstract.html

https://proceedings.neurips.cc/paper/2015/hash/86df7dcfd896fcaf2674f757a2463eba-Abstract.html

＋国内の査読研究から（自然言語処理誌）国内・査読有国内＝日本の学会誌（言語処理学会）。いずれも一般論文（査読有）。 ②に関連：LLMに“推論”を教える ③/評価に関連：LLM採点の偏り緩和森下ら 2025 ・自然言語処理 32(2) 520–571 大井ら 2025 ・自然言語処理 32(2) 480–496 ルールで論理推論を自動生成 LLMで学習推論力向上同義でも尤度が違う2文 LLM評価が歪む • LLMは知識は豊富だが新規の“推論”が苦手 • LLM-as-a-Judge には尤度バイアスがある • ルールベースで人工の論理推論データを生成 • 強いバイアス事例をFew-shotに使い緩和 • それを学習させ推論能力を底上げ • 人手評価との順位相関が向上 URL： doi.org/10.5715/jnlp.32.520 URL： doi.org/10.5715/jnlp.32.480 ※ いずれもLLMの“評価”や“推論”という実務直結のテーマ。国内研究も一次情報で追えます。 Few-shot で補正

まとめ＆出典一覧（査読済み）流れプロンプトで指示(⓪②)→エージェントが考えて行動(①)→ハーネスで道具を渡す(③)→PoCは本番化の負債に注意(④)。 ⓪ Liu et al. 2023, Pre-train, Prompt, and Predict, ACM Comp. Surv. 55(9) ［海外・査読］ dl.acm.org/doi/10.1145/3560815 ① Yao et al. 2023, ReAct, ICLR 2023 ［海外・査読］ openreview.net/forum?id=WE_vluYUL-X ② Wei et al. 2022, Chain-of-Thought Prompting, NeurIPS 2022 ［海外・査読］ proceedings.neurips.cc/paper/2022/hash/9d5609613524ecf4f15af0f7b31abca4-Abstract-Conference.html ③ Yang et al. 2024, SWE-agent (Agent-Computer Interface), NeurIPS 2024 ［海外・査読］ openreview.net/forum?id=mXpq6ut8J3 ④ Sculley et al. 2015, Hidden Technical Debt in ML, NeurIPS 2015 ［海外・査読］ proceedings.neurips.cc/paper/2015/hash/86df7dcfd896fcaf2674f757a2463eba-Abstract.html ＋森下ら 2025 / 大井ら 2025, 自然言語処理 32(2) ［国内・査読有］ doi.org/10.5715/jnlp.32.520・ doi.org/10.5715/jnlp.32.480 ※ 図解は各論文の要点を簡略化した模式図です（細部・数値は原文を参照）。「ハーネス」はACIに対応する実務用語。