論文図解_プロンプト工学_AIエージェント_ハーネス_1論文1ページ .pptx

>100 Views

June 13, 26

#プロンプト工学 #AIエージェント #自然言語処理 #機械学習 #論文解説

スライド概要

smile_yukiko_it

@smile_yukiko_it

スライド一覧

何卒よろしくお願い申し上げます。一流のIT研修講師を目指し、日々研鑽を続けております。本資料は外部公開用としてご提供するものです。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

勉強会_ものづくりの6つの原理原則_理系向け6時間_2026_05_24_石黒友季子

ai駆動開発 ai

smile_yukiko_it 786

【公開】質問力研修_新入社員未経験向け

エンジニアコミュニケーション

smile_yukiko_it 405

ハーネスエンジニアリング入門　AIエージェント開発×プロンプト_実務編

smile_yukiko_it 204

ISO規格別_社内SE業務フロー資料

smile_yukiko_it 189

【新卒未経験学生向け】エンジニアコミュニケーションフレーズ集 💬エンジニアのためのコミュニケーションフレーズ集

smile_yukiko_it 171

LPIC3_303_Study

smile_yukiko_it 158

各ページのテキスト

プロンプト工学・AIエージェント・ハーネス国内外の論文を「1論文1ページ図解」で読むエンジニア向け／成功・失敗つき／査読・プレプリントを明示／各ページに出典URL うさうさ先生 🐰🦺 面白きこともなき世を面白くプロンプト工学・AIエージェント・ハーネス｜ 1論文1ページ図解（エンジニア向け） 1 / 33

本デッキの読み方・前提（正直に） • ねらい：プロンプト工学／AIエージェント／ハーネスの主要論文を、1論文1ページの図解で素早く把握する。 • 凡例：［査読付き｜会議名］＝査読を経た論文／［プレプリント(arXiv)］＝査読前を含む。各ページに出典URL。 • 成功◎／失敗△：各論文が示した強みと、報告された限界・条件依存を併記（数値は実験設定に依存）。 • 国内：年次大会(NLP)の発表は基本「査読なし」。査読付き国内は学会誌『自然言語処理』、また日本発研究は国際会議でも多数（後述）。 • 正直な注記：本デッキは“実在を確認できた約25本”の厳選版です。捏造を避けるため「査読済み100本」は作っていません（拡張は追って可能）。 • 発表先・URLは作成時点(2026年6月)の確認に基づく。引用時は各一次情報をご確認ください。プロンプト工学・AIエージェント・ハーネス｜ 1論文1ページ図解（エンジニア向け） 2 / 33

プロンプト工学推論を“構造化”して引き出す掲載：本デッキ 10 本プロンプト工学・AIエージェント・ハーネス｜ 1論文1ページ図解（エンジニア向け） 3 / 33

1 CoT｜Chain-of-Thought プロンプト工学 Chain-of-Thought Prompting Elicits Reasoning in Large Language Models Wei et al., 2022 ／ NeurIPS 2022 査読付き｜ NeurIPS 2022 海外質問中間推論ステップ答え ◎ 成功・強み：算術・常識・記号推論で大幅向上 △ 限界・失敗：小規模モデルでは効果薄／推論が誤ると答も誤り https://arxiv.org/abs/2201.11903 プロンプト工学・AIエージェント・ハーネス｜ 1論文1ページ図解（エンジニア向け） 4 / 33

https://arxiv.org/abs/2201.11903

2 Zero-shot CoT プロンプト工学 Large Language Models are Zero-Shot Reasoners Kojima et al., 2022 ／ NeurIPS 2022 査読付き｜ NeurIPS 2022 海外質問「順を追って考えよう」答え ◎ 成功・強み：一文追加で0-shot推論が改善 △ 限界・失敗：タスク依存・万能ではない https://arxiv.org/abs/2205.11916 プロンプト工学・AIエージェント・ハーネス｜ 1論文1ページ図解（エンジニア向け） 5 / 33

https://arxiv.org/abs/2205.11916

3 Self-Consistency プロンプト工学 Self-Consistency Improves Chain of Thought Reasoning Wang et al., 2022 ／ ICLR 2023 査読付き｜ ICLR 2023 海外複数の推論を生成多数決答え ◎ 成功・強み：CoTより精度向上（多数決で安定） △ 限界・失敗：サンプル数だけ計算コスト増／全パス誤れば失敗 https://arxiv.org/abs/2203.11171 プロンプト工学・AIエージェント・ハーネス｜ 1論文1ページ図解（エンジニア向け） 6 / 33

https://arxiv.org/abs/2203.11171

4 Least-to-Most プロンプト工学 Least-to-Most Prompting Enables Complex Reasoning Zhou et al., 2022 ／ ICLR 2023 査読付き｜ ICLR 2023 海外小問に分解易→難で順に解く統合 ◎ 成功・強み：難問への汎化（分解効果） △ 限界・失敗：分解の質に依存 https://arxiv.org/abs/2205.10625 プロンプト工学・AIエージェント・ハーネス｜ 1論文1ページ図解（エンジニア向け） 7 / 33

https://arxiv.org/abs/2205.10625

5 ToT｜Tree of Thoughts プロンプト工学 Tree of Thoughts: Deliberate Problem Solving with LLMs Yao et al., 2023 ／ NeurIPS 2023 査読付き｜ NeurIPS 2023 海外枝分かれ思考評価・選択バックトラック ◎ 成功・強み：探索＋後戻りで難問に強い △ 限界・失敗：評価関数と計算コストが必要 https://arxiv.org/abs/2305.10601 プロンプト工学・AIエージェント・ハーネス｜ 1論文1ページ図解（エンジニア向け） 8 / 33

https://arxiv.org/abs/2305.10601

6 GoT｜Graph of Thoughts プロンプト工学 Graph of Thoughts: Solving Elaborate Problems with LLMs Besta et al., 2023 ／ AAAI 2024 査読付き｜ AAAI 2024 海外思考をグラフ化統合・再利用答え ◎ 成功・強み：思考の再利用で効率・品質向上 △ 限界・失敗：構築の複雑さ https://arxiv.org/abs/2308.09687 プロンプト工学・AIエージェント・ハーネス｜ 1論文1ページ図解（エンジニア向け） 9 / 33

https://arxiv.org/abs/2308.09687

10.

7 APE｜自動プロンプト生成プロンプト工学 Large Language Models Are Human-Level Prompt Engineers Zhou et al., 2022 ／ ICLR 2023 査読付き｜ ICLR 2023 海外候補プロンプト生成スコア評価最良を選択 ◎ 成功・強み：人手より良いプロンプトを自動発見 △ 限界・失敗：探索コスト・タスク依存 https://arxiv.org/abs/2211.01910 プロンプト工学・AIエージェント・ハーネス｜ 1論文1ページ図解（エンジニア向け） 10 / 33

https://arxiv.org/abs/2211.01910

11.

8 PAL｜Program-Aided プロンプト工学 PAL: Program-aided Language Models Gao et al., 2022 ／ ICML 2023 査読付き｜ ICML 2023 海外問題コードで表現実行して答え ◎ 成功・強み：計算をコードに委譲し正確 △ 限界・失敗：コード実行環境が前提 https://arxiv.org/abs/2211.10435 プロンプト工学・AIエージェント・ハーネス｜ 1論文1ページ図解（エンジニア向け） 11 / 33

https://arxiv.org/abs/2211.10435

12.

9 Generated Knowledge プロンプト工学 Generated Knowledge Prompting for Commonsense Reasoning Liu et al., 2022 ／ ACL 2022 査読付き｜ ACL 2022 海外知識を生成プロンプトに付与回答 ◎ 成功・強み：常識補完で改善 △ 限界・失敗：生成知識の誤りリスク https://arxiv.org/abs/2110.08387 プロンプト工学・AIエージェント・ハーネス｜ 1論文1ページ図解（エンジニア向け） 12 / 33

https://arxiv.org/abs/2110.08387

13.

10 RAG｜検索拡張生成プロンプト工学 Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks Lewis et al., 2020 ／ NeurIPS 2020 査読付き｜ NeurIPS 2020 海外検索(retrieval) 文脈に付与生成 ◎ 成功・強み：外部知識で事実性向上・更新容易 △ 限界・失敗：検索品質に依存／無関係文脈で劣化 https://arxiv.org/abs/2005.11401 プロンプト工学・AIエージェント・ハーネス｜ 1論文1ページ図解（エンジニア向け） 13 / 33

https://arxiv.org/abs/2005.11401

14.

エージェント開発モデルに“行動”と“内省”を与える掲載：本デッキ 10 本プロンプト工学・AIエージェント・ハーネス｜ 1論文1ページ図解（エンジニア向け） 14 / 33

15.

1 ReAct エージェント開発 ReAct: Synergizing Reasoning and Acting in Language Models Yao et al., 2023 ／ ICLR 2023 査読付き｜ ICLR 2023 海外思考(Reason) 行動(Act) 観察→繰り返し ◎ 成功・強み：推論×行動で+34%/+10%、幻覚抑制 △ 限界・失敗：検索の質に弱い／文脈長の制約 https://arxiv.org/abs/2210.03629 プロンプト工学・AIエージェント・ハーネス｜ 1論文1ページ図解（エンジニア向け） 15 / 33

https://arxiv.org/abs/2210.03629

16.

2 Reflexion エージェント開発 Reflexion: Language Agents with Verbal Reinforcement Learning Shinn et al., 2023 ／ NeurIPS 2023 査読付き｜ NeurIPS 2023 海外試行言語で内省記憶し再挑戦 ◎ 成功・強み：言語的内省で再挑戦（重み更新不要） △ 限界・失敗：良い内省の生成が難しい https://arxiv.org/abs/2303.11366 プロンプト工学・AIエージェント・ハーネス｜ 1論文1ページ図解（エンジニア向け） 16 / 33

https://arxiv.org/abs/2303.11366

17.

3 Toolformer エージェント開発 Toolformer: Language Models Can Teach Themselves to Use Tools Schick et al., 2023 ／ NeurIPS 2023 査読付き｜ NeurIPS 2023 海外 API呼出を自己学習必要時に呼ぶ結果を利用 ◎ 成功・強み：自己教師でツール利用を獲得 △ 限界・失敗：対象API設計に依存 https://arxiv.org/abs/2302.04761 プロンプト工学・AIエージェント・ハーネス｜ 1論文1ページ図解（エンジニア向け） 17 / 33

https://arxiv.org/abs/2302.04761

18.

4 Self-Refine エージェント開発 Self-Refine: Iterative Refinement with Self-Feedback Madaan et al., 2023 ／ NeurIPS 2023 査読付き｜ NeurIPS 2023 海外初回出力自己フィードバック改善 ◎ 成功・強み：自己改善で品質向上（追加学習なし） △ 限界・失敗：自己評価が甘いと改善しない https://arxiv.org/abs/2303.17651 プロンプト工学・AIエージェント・ハーネス｜ 1論文1ページ図解（エンジニア向け） 18 / 33

https://arxiv.org/abs/2303.17651

19.

5 Generative Agents エージェント開発 Generative Agents: Interactive Simulacra of Human Behavior Park et al., 2023 ／ UIST 2023 査読付き｜ UIST 2023 海外記憶計画・内省行動(シミュ) ◎ 成功・強み：記憶・内省で人間らしい行動を再現 △ 限界・失敗：計算コスト・評価の難しさ https://arxiv.org/abs/2304.03442 プロンプト工学・AIエージェント・ハーネス｜ 1論文1ページ図解（エンジニア向け） 19 / 33

https://arxiv.org/abs/2304.03442

20.

6 Voyager エージェント開発 Voyager: An Open-Ended Embodied Agent with LLMs Wang et al., 2023 ／ TMLR 2024 査読付き｜ TMLR 2024 海外自動カリキュラムスキルライブラリ反復改善 ◎ 成功・強み：スキル蓄積で生涯学習的に探索 △ 限界・失敗：環境特化・一般化は限定 https://arxiv.org/abs/2305.16291 プロンプト工学・AIエージェント・ハーネス｜ 1論文1ページ図解（エンジニア向け） 20 / 33

https://arxiv.org/abs/2305.16291

21.

7 MetaGPT エージェント開発 MetaGPT: Meta Programming for Multi-Agent Collaborative Framework Hong et al., 2023 ／ ICLR 2024 (Oral) 査読付き｜ ICLR 2024 海外役割分担(SOP) 成果物を受け渡し協調開発 ◎ 成功・強み：SOPで多エージェント協調、成果物の質向上 △ 限界・失敗：役割設計・コスト https://arxiv.org/abs/2308.00352 プロンプト工学・AIエージェント・ハーネス｜ 1論文1ページ図解（エンジニア向け） 21 / 33

https://arxiv.org/abs/2308.00352

22.

8 AutoGen エージェント開発 AutoGen: Enabling Next-Gen LLM Apps via Multi-Agent Conversation Wu et al., 2023 ／ COLM 2024 査読付き｜ COLM 2024 海外複数エージェント会話で協調タスク遂行 ◎ 成功・強み：会話型多エージェントを柔軟に構築 △ 限界・失敗：制御・収束の難しさ https://arxiv.org/abs/2308.08155 プロンプト工学・AIエージェント・ハーネス｜ 1論文1ページ図解（エンジニア向け） 22 / 33

https://arxiv.org/abs/2308.08155

23.

9 SWE-bench エージェント開発 SWE-bench: Can LMs Resolve Real-World GitHub Issues? Jimenez et al., 2023 ／ ICLR 2024 (Oral) 査読付き｜ ICLR 2024 海外実Issue パッチ生成テストで判定 ◎ 成功・強み：実GitHub課題で厳密に評価 △ 限界・失敗：当初は最高でも低成功率＝難しさを露呈 https://arxiv.org/abs/2310.06770 プロンプト工学・AIエージェント・ハーネス｜ 1論文1ページ図解（エンジニア向け） 23 / 33

https://arxiv.org/abs/2310.06770

24.

10 AgentBench エージェント開発 AgentBench: Evaluating LLMs as Agents Liu et al., 2023 ／ ICLR 2024 査読付き｜ ICLR 2024 海外多環境タスクエージェント実行能力を測定 ◎ 成功・強み：多環境で能力を体系評価 △ 限界・失敗：ベンチと実運用の差 https://arxiv.org/abs/2308.03688 プロンプト工学・AIエージェント・ハーネス｜ 1論文1ページ図解（エンジニア向け） 24 / 33

https://arxiv.org/abs/2308.03688

25.

ハーネス工学モデルの“まわり”を設計する（足場・評価）掲載：本デッキ 5 本プロンプト工学・AIエージェント・ハーネス｜ 1論文1ページ図解（エンジニア向け） 25 / 33

26.

1 Modular Harness ハーネス工学 General Modular Harness for LLM Agents in Multi-Turn Gaming arXiv 2025 ／プレプリントプレプリント (arXiv) 海外知覚記憶推論(着脱式) ◎ 成功・強み：無ハーネスより有意改善（paired t-test p<0.05） △ 限界・失敗：ゲーム環境での検証＝一般化は要検討 https://arxiv.org/abs/2507.11633 プロンプト工学・AIエージェント・ハーネス｜ 1論文1ページ図解（エンジニア向け） 26 / 33

https://arxiv.org/abs/2507.11633

27.

2 AgentBreeder ハーネス工学 AgentBreeder: Mitigating AI Safety Risks of Multi-Agent Scaffolds Rosser & Foerster ／プレプリント (Oxford/Meta) プレプリント (arXiv) 海外足場を進化探索能力×安全で評価改良 ◎ 成功・強み：安全を平均+79.4%改善する足場を発見 △ 限界・失敗：同時に脆弱な足場も生成＝リスク https://arxiv.org/abs/2502.00757 プロンプト工学・AIエージェント・ハーネス｜ 1論文1ページ図解（エンジニア向け） 27 / 33

https://arxiv.org/abs/2502.00757

28.

3 SEC-bench ハーネス工学 SEC-bench: Benchmarking LLM Agents on Software Security Tasks arXiv 2025 ／プレプリントプレプリント (arXiv) 海外 CVE自動構築エージェントが対応検証 ◎ 成功・強み：実CVEで自動評価基盤を構築 △ 限界・失敗：SOTAでもPoC≤18%・修正≤34% https://arxiv.org/abs/2506.11791 プロンプト工学・AIエージェント・ハーネス｜ 1論文1ページ図解（エンジニア向け） 28 / 33

https://arxiv.org/abs/2506.11791

29.

4 ClawsBench ハーネス工学 ClawsBench: Capability and Safety of LLM Productivity Agents arXiv 2026 ／プレプリントプレプリント (arXiv) 海外模擬業務環境行動を実行安全/成功を採点 ◎ 成功・強み：能力と安全を分離して計測 △ 限界・失敗：不安全行動が7〜33%＝安全課題 https://arxiv.org/abs/2604.05172 プロンプト工学・AIエージェント・ハーネス｜ 1論文1ページ図解（エンジニア向け） 29 / 33

https://arxiv.org/abs/2604.05172

30.

5 NL Agent Harnesses ハーネス工学 Natural-Language Agent Harnesses arXiv 2026 ／プレプリントプレプリント (arXiv) 海外ハーネスを明示化探索空間に再結合・最適化 ◎ 成功・強み：ハーネスを設計対象として体系化 △ 限界・失敗：プレプリント・実証はこれから https://arxiv.org/abs/2603.25723 プロンプト工学・AIエージェント・ハーネス｜ 1論文1ページ図解（エンジニア向け） 30 / 33

https://arxiv.org/abs/2603.25723

31.

国内（日本）の状況 ― 正直な整理 • 年次大会（NLP, 言語処理学会）の発表は基本「査読なし」。最新研究は豊富だが“査読済み論文”としては扱えない。 • 査読付きの国内ジャーナル＝『自然言語処理』(J-STAGE/jnlp)。ここに載るものは査読済み。 • 日本発の研究の多くは、ACL/EMNLP/NeurIPS など国際査読会議で発表されている（本デッキの海外論文にも日本所属の著者が含まれる）。 • したがって「国内の査読済み論文」を量で揃えるのは難しく、本デッキは事実に即し “海外査読論文＋プレプリント”を主軸にしています。参考：自然言語処理(査読付き) https://www.jstage.jst.go.jp/browse/jnlp ／言語処理学会 https://www.anlp.jp/ プロンプト工学・AIエージェント・ハーネス｜ 1論文1ページ図解（エンジニア向け） 31 / 33

32.

横断まとめ：成功要因と限界 ◎ うまくいく共通パターン △ 共通する限界・失敗 • 構造化（分解・探索・グラフ） • 推論誤りの伝播・自己評価の甘さ • 外部接続（検索・ツール・コード） • 計算コスト増（探索・多数決） • 反復（内省・自己改善） • タスク・環境への依存 • 多角評価（自己整合・評価ハーネス） • 安全でない行動（要ガードレール） • 役割分担・SOP（多エージェント） • 難タスクは依然低成功率／ベンチと実運用の差プロンプト工学・AIエージェント・ハーネス｜ 1論文1ページ図解（エンジニア向け） 32 / 33

33.

まとめ＆免責 • 流れ：プロンプトで“引き出す”→エージェントで“行動・内省”→ハーネスで“環境を設計” • 共通原則：構造化・外部接続・反復・多角評価・ガードレール＋人の確認 • プロンプト/エージェントは査読論文が豊富、ハーネスは実務発＋プレプリントが中心 • 数値は実験条件に依存。発表先・URLは2026年6月時点。引用時は一次情報を確認 • 本デッキは“実在確認済みの約25本”の厳選版（捏造なし）。本数の拡張は追加調査で可能面白きこともなき世を面白く 🐰🦺 ｜うさうさ先生プロンプト工学・AIエージェント・ハーネス｜ 1論文1ページ図解（エンジニア向け） 33 / 33