論文図解_プロンプト工学_AIエージェント_ハーネス_1論文1ページ .pptx

-- Views

June 13, 26

スライド概要

profile-image

何卒よろしくお願い申し上げます。 一流のIT研修講師を目指し、日々研鑽を続けております。 本資料は外部公開用としてご提供するものです。

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

プロンプト工学・AIエージェント・ハーネス 国内外の論文を「1論文1ページ図解」で読む エンジニア向け / 成功・失敗つき / 査読・プレプリントを明示 / 各ページに出典URL うさうさ先生 🐰🦺 面白きこともなき世を面白く プロンプト工学・AIエージェント・ハーネス | 1論文1ページ図解(エンジニア向け) 1 / 33

2.

本デッキの読み方・前提(正直に) • ねらい:プロンプト工学/AIエージェント/ハーネスの主要論文を、1論文1ページの図解で素早く把握する。 • 凡例:[査読付き|会議名]=査読を経た論文/[プレプリント(arXiv)]=査読前を含む。各ページに出典URL。 • 成功◎/失敗△:各論文が示した強みと、報告された限界・条件依存を併記(数値は実験設定に依存)。 • 国内:年次大会(NLP)の発表は基本「査読なし」。査読付き国内は学会誌『自然言語処理』、また日本発研究は国際 会議でも多数(後述)。 • 正直な注記:本デッキは“実在を確認できた約25本”の厳選版です。捏造を避けるため「査読済み100本」は作って いません(拡張は追って可能)。 • 発表先・URLは作成時点(2026年6月)の確認に基づく。引用時は各一次情報をご確認ください。 プロンプト工学・AIエージェント・ハーネス | 1論文1ページ図解(エンジニア向け) 2 / 33

3.

プロンプト工学 推論を“構造化”して引き出す 掲載:本デッキ 10 本 プロンプト工学・AIエージェント・ハーネス | 1論文1ページ図解(エンジニア向け) 3 / 33

4.

1 CoT|Chain-of-Thought プロンプト工学 Chain-of-Thought Prompting Elicits Reasoning in Large Language Models Wei et al., 2022 / NeurIPS 2022 査読付き | NeurIPS 2022 海外 質問 中間推論ステップ 答え ◎ 成功・強み:算術・常識・記号推論で大幅向上 △ 限界・失敗:小規模モデルでは効果薄/推論が誤ると答も誤り https://arxiv.org/abs/2201.11903 プロンプト工学・AIエージェント・ハーネス | 1論文1ページ図解(エンジニア向け) 4 / 33

5.

2 Zero-shot CoT プロンプト工学 Large Language Models are Zero-Shot Reasoners Kojima et al., 2022 / NeurIPS 2022 査読付き | NeurIPS 2022 海外 質問 「順を追って考えよう」 答え ◎ 成功・強み:一文追加で0-shot推論が改善 △ 限界・失敗:タスク依存・万能ではない https://arxiv.org/abs/2205.11916 プロンプト工学・AIエージェント・ハーネス | 1論文1ページ図解(エンジニア向け) 5 / 33

6.

3 Self-Consistency プロンプト工学 Self-Consistency Improves Chain of Thought Reasoning Wang et al., 2022 / ICLR 2023 査読付き | ICLR 2023 海外 複数の推論を生成 多数決 答え ◎ 成功・強み:CoTより精度向上(多数決で安定) △ 限界・失敗:サンプル数だけ計算コスト増/全パス誤れば失敗 https://arxiv.org/abs/2203.11171 プロンプト工学・AIエージェント・ハーネス | 1論文1ページ図解(エンジニア向け) 6 / 33

7.

4 Least-to-Most プロンプト工学 Least-to-Most Prompting Enables Complex Reasoning Zhou et al., 2022 / ICLR 2023 査読付き | ICLR 2023 海外 小問に分解 易→難で順に解く 統合 ◎ 成功・強み:難問への汎化(分解効果) △ 限界・失敗:分解の質に依存 https://arxiv.org/abs/2205.10625 プロンプト工学・AIエージェント・ハーネス | 1論文1ページ図解(エンジニア向け) 7 / 33

8.

5 ToT|Tree of Thoughts プロンプト工学 Tree of Thoughts: Deliberate Problem Solving with LLMs Yao et al., 2023 / NeurIPS 2023 査読付き | NeurIPS 2023 海外 枝分かれ思考 評価・選択 バックトラック ◎ 成功・強み:探索+後戻りで難問に強い △ 限界・失敗:評価関数と計算コストが必要 https://arxiv.org/abs/2305.10601 プロンプト工学・AIエージェント・ハーネス | 1論文1ページ図解(エンジニア向け) 8 / 33

9.

6 GoT|Graph of Thoughts プロンプト工学 Graph of Thoughts: Solving Elaborate Problems with LLMs Besta et al., 2023 / AAAI 2024 査読付き | AAAI 2024 海外 思考をグラフ化 統合・再利用 答え ◎ 成功・強み:思考の再利用で効率・品質向上 △ 限界・失敗:構築の複雑さ https://arxiv.org/abs/2308.09687 プロンプト工学・AIエージェント・ハーネス | 1論文1ページ図解(エンジニア向け) 9 / 33

10.

7 APE|自動プロンプト生成 プロンプト工学 Large Language Models Are Human-Level Prompt Engineers Zhou et al., 2022 / ICLR 2023 査読付き | ICLR 2023 海外 候補プロンプト生成 スコア評価 最良を選択 ◎ 成功・強み:人手より良いプロンプトを自動発見 △ 限界・失敗:探索コスト・タスク依存 https://arxiv.org/abs/2211.01910 プロンプト工学・AIエージェント・ハーネス | 1論文1ページ図解(エンジニア向け) 10 / 33

11.

8 PAL|Program-Aided プロンプト工学 PAL: Program-aided Language Models Gao et al., 2022 / ICML 2023 査読付き | ICML 2023 海外 問題 コードで表現 実行して答え ◎ 成功・強み:計算をコードに委譲し正確 △ 限界・失敗:コード実行環境が前提 https://arxiv.org/abs/2211.10435 プロンプト工学・AIエージェント・ハーネス | 1論文1ページ図解(エンジニア向け) 11 / 33

12.

9 Generated Knowledge プロンプト工学 Generated Knowledge Prompting for Commonsense Reasoning Liu et al., 2022 / ACL 2022 査読付き | ACL 2022 海外 知識を生成 プロンプトに付与 回答 ◎ 成功・強み:常識補完で改善 △ 限界・失敗:生成知識の誤りリスク https://arxiv.org/abs/2110.08387 プロンプト工学・AIエージェント・ハーネス | 1論文1ページ図解(エンジニア向け) 12 / 33

13.

10 RAG|検索拡張生成 プロンプト工学 Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks Lewis et al., 2020 / NeurIPS 2020 査読付き | NeurIPS 2020 海外 検索(retrieval) 文脈に付与 生成 ◎ 成功・強み:外部知識で事実性向上・更新容易 △ 限界・失敗:検索品質に依存/無関係文脈で劣化 https://arxiv.org/abs/2005.11401 プロンプト工学・AIエージェント・ハーネス | 1論文1ページ図解(エンジニア向け) 13 / 33

14.

エージェント開発 モデルに“行動”と“内省”を与える 掲載:本デッキ 10 本 プロンプト工学・AIエージェント・ハーネス | 1論文1ページ図解(エンジニア向け) 14 / 33

15.

1 ReAct エージェント開発 ReAct: Synergizing Reasoning and Acting in Language Models Yao et al., 2023 / ICLR 2023 査読付き | ICLR 2023 海外 思考(Reason) 行動(Act) 観察→繰り返し ◎ 成功・強み:推論×行動で+34%/+10%、幻覚抑制 △ 限界・失敗:検索の質に弱い/文脈長の制約 https://arxiv.org/abs/2210.03629 プロンプト工学・AIエージェント・ハーネス | 1論文1ページ図解(エンジニア向け) 15 / 33

16.

2 Reflexion エージェント開発 Reflexion: Language Agents with Verbal Reinforcement Learning Shinn et al., 2023 / NeurIPS 2023 査読付き | NeurIPS 2023 海外 試行 言語で内省 記憶し再挑戦 ◎ 成功・強み:言語的内省で再挑戦(重み更新不要) △ 限界・失敗:良い内省の生成が難しい https://arxiv.org/abs/2303.11366 プロンプト工学・AIエージェント・ハーネス | 1論文1ページ図解(エンジニア向け) 16 / 33

17.

3 Toolformer エージェント開発 Toolformer: Language Models Can Teach Themselves to Use Tools Schick et al., 2023 / NeurIPS 2023 査読付き | NeurIPS 2023 海外 API呼出を自己学習 必要時に呼ぶ 結果を利用 ◎ 成功・強み:自己教師でツール利用を獲得 △ 限界・失敗:対象API設計に依存 https://arxiv.org/abs/2302.04761 プロンプト工学・AIエージェント・ハーネス | 1論文1ページ図解(エンジニア向け) 17 / 33

18.

4 Self-Refine エージェント開発 Self-Refine: Iterative Refinement with Self-Feedback Madaan et al., 2023 / NeurIPS 2023 査読付き | NeurIPS 2023 海外 初回出力 自己フィードバック 改善 ◎ 成功・強み:自己改善で品質向上(追加学習なし) △ 限界・失敗:自己評価が甘いと改善しない https://arxiv.org/abs/2303.17651 プロンプト工学・AIエージェント・ハーネス | 1論文1ページ図解(エンジニア向け) 18 / 33

19.

5 Generative Agents エージェント開発 Generative Agents: Interactive Simulacra of Human Behavior Park et al., 2023 / UIST 2023 査読付き | UIST 2023 海外 記憶 計画・内省 行動(シミュ) ◎ 成功・強み:記憶・内省で人間らしい行動を再現 △ 限界・失敗:計算コスト・評価の難しさ https://arxiv.org/abs/2304.03442 プロンプト工学・AIエージェント・ハーネス | 1論文1ページ図解(エンジニア向け) 19 / 33

20.

6 Voyager エージェント開発 Voyager: An Open-Ended Embodied Agent with LLMs Wang et al., 2023 / TMLR 2024 査読付き | TMLR 2024 海外 自動カリキュラム スキルライブラリ 反復改善 ◎ 成功・強み:スキル蓄積で生涯学習的に探索 △ 限界・失敗:環境特化・一般化は限定 https://arxiv.org/abs/2305.16291 プロンプト工学・AIエージェント・ハーネス | 1論文1ページ図解(エンジニア向け) 20 / 33

21.

7 MetaGPT エージェント開発 MetaGPT: Meta Programming for Multi-Agent Collaborative Framework Hong et al., 2023 / ICLR 2024 (Oral) 査読付き | ICLR 2024 海外 役割分担(SOP) 成果物を受け渡し 協調開発 ◎ 成功・強み:SOPで多エージェント協調、成果物の質向上 △ 限界・失敗:役割設計・コスト https://arxiv.org/abs/2308.00352 プロンプト工学・AIエージェント・ハーネス | 1論文1ページ図解(エンジニア向け) 21 / 33

22.

8 AutoGen エージェント開発 AutoGen: Enabling Next-Gen LLM Apps via Multi-Agent Conversation Wu et al., 2023 / COLM 2024 査読付き | COLM 2024 海外 複数エージェント 会話で協調 タスク遂行 ◎ 成功・強み:会話型多エージェントを柔軟に構築 △ 限界・失敗:制御・収束の難しさ https://arxiv.org/abs/2308.08155 プロンプト工学・AIエージェント・ハーネス | 1論文1ページ図解(エンジニア向け) 22 / 33

23.

9 SWE-bench エージェント開発 SWE-bench: Can LMs Resolve Real-World GitHub Issues? Jimenez et al., 2023 / ICLR 2024 (Oral) 査読付き | ICLR 2024 海外 実Issue パッチ生成 テストで判定 ◎ 成功・強み:実GitHub課題で厳密に評価 △ 限界・失敗:当初は最高でも低成功率=難しさを露呈 https://arxiv.org/abs/2310.06770 プロンプト工学・AIエージェント・ハーネス | 1論文1ページ図解(エンジニア向け) 23 / 33

24.

10 AgentBench エージェント開発 AgentBench: Evaluating LLMs as Agents Liu et al., 2023 / ICLR 2024 査読付き | ICLR 2024 海外 多環境タスク エージェント実行 能力を測定 ◎ 成功・強み:多環境で能力を体系評価 △ 限界・失敗:ベンチと実運用の差 https://arxiv.org/abs/2308.03688 プロンプト工学・AIエージェント・ハーネス | 1論文1ページ図解(エンジニア向け) 24 / 33

25.

ハーネス工学 モデルの“まわり”を設計する(足場・評価) 掲載:本デッキ 5 本 プロンプト工学・AIエージェント・ハーネス | 1論文1ページ図解(エンジニア向け) 25 / 33

26.

1 Modular Harness ハーネス工学 General Modular Harness for LLM Agents in Multi-Turn Gaming arXiv 2025 / プレプリント プレプリント (arXiv) 海外 知覚 記憶 推論(着脱式) ◎ 成功・強み:無ハーネスより有意改善(paired t-test p<0.05) △ 限界・失敗:ゲーム環境での検証=一般化は要検討 https://arxiv.org/abs/2507.11633 プロンプト工学・AIエージェント・ハーネス | 1論文1ページ図解(エンジニア向け) 26 / 33

27.

2 AgentBreeder ハーネス工学 AgentBreeder: Mitigating AI Safety Risks of Multi-Agent Scaffolds Rosser & Foerster / プレプリント (Oxford/Meta) プレプリント (arXiv) 海外 足場を進化探索 能力×安全で評価 改良 ◎ 成功・強み:安全を平均+79.4%改善する足場を発見 △ 限界・失敗:同時に脆弱な足場も生成=リスク https://arxiv.org/abs/2502.00757 プロンプト工学・AIエージェント・ハーネス | 1論文1ページ図解(エンジニア向け) 27 / 33

28.

3 SEC-bench ハーネス工学 SEC-bench: Benchmarking LLM Agents on Software Security Tasks arXiv 2025 / プレプリント プレプリント (arXiv) 海外 CVE自動構築 エージェントが対応 検証 ◎ 成功・強み:実CVEで自動評価基盤を構築 △ 限界・失敗:SOTAでもPoC≤18%・修正≤34% https://arxiv.org/abs/2506.11791 プロンプト工学・AIエージェント・ハーネス | 1論文1ページ図解(エンジニア向け) 28 / 33

29.

4 ClawsBench ハーネス工学 ClawsBench: Capability and Safety of LLM Productivity Agents arXiv 2026 / プレプリント プレプリント (arXiv) 海外 模擬業務環境 行動を実行 安全/成功を採点 ◎ 成功・強み:能力と安全を分離して計測 △ 限界・失敗:不安全行動が7〜33%=安全課題 https://arxiv.org/abs/2604.05172 プロンプト工学・AIエージェント・ハーネス | 1論文1ページ図解(エンジニア向け) 29 / 33

30.

5 NL Agent Harnesses ハーネス工学 Natural-Language Agent Harnesses arXiv 2026 / プレプリント プレプリント (arXiv) 海外 ハーネスを明示化 探索空間に 再結合・最適化 ◎ 成功・強み:ハーネスを設計対象として体系化 △ 限界・失敗:プレプリント・実証はこれから https://arxiv.org/abs/2603.25723 プロンプト工学・AIエージェント・ハーネス | 1論文1ページ図解(エンジニア向け) 30 / 33

31.

国内(日本)の状況 ― 正直な整理 • 年次大会(NLP, 言語処理学会)の発表は基本「査読なし」。最新研究は豊富だが“査 読済み論文”としては扱えない。 • 査読付きの国内ジャーナル=『自然言語処理』(J-STAGE/jnlp)。ここに載るものは査 読済み。 • 日本発の研究の多くは、ACL/EMNLP/NeurIPS など国際査読会議で発表されている (本デッキの海外論文にも日本所属の著者が含まれる)。 • したがって「国内の査読済み論文」を量で揃えるのは難しく、本デッキは事実に即し “海外査読論文+プレプリント”を主軸にしています。 参考:自然言語処理(査読付き) https://www.jstage.jst.go.jp/browse/jnlp / 言語処理学会 https://www.anlp.jp/ プロンプト工学・AIエージェント・ハーネス | 1論文1ページ図解(エンジニア向け) 31 / 33

32.

横断まとめ:成功要因と限界 ◎ うまくいく共通パターン △ 共通する限界・失敗 • 構造化(分解・探索・グラフ) • 推論誤りの伝播・自己評価の甘さ • 外部接続(検索・ツール・コード) • 計算コスト増(探索・多数決) • 反復(内省・自己改善) • タスク・環境への依存 • 多角評価(自己整合・評価ハーネス) • 安全でない行動(要ガードレール) • 役割分担・SOP(多エージェント) • 難タスクは依然低成功率/ベンチと実運用の差 プロンプト工学・AIエージェント・ハーネス | 1論文1ページ図解(エンジニア向け) 32 / 33

33.

まとめ & 免責 • 流れ:プロンプトで“引き出す”→エージェントで“行動・内省”→ハーネスで“環境を設計” • 共通原則:構造化・外部接続・反復・多角評価・ガードレール+人の確認 • プロンプト/エージェントは査読論文が豊富、ハーネスは実務発+プレプリントが中心 • 数値は実験条件に依存。発表先・URLは2026年6月時点。引用時は一次情報を確認 • 本デッキは“実在確認済みの約25本”の厳選版(捏造なし)。本数の拡張は追加調査で可能 面白きこともなき世を面白く 🐰🦺 | うさうさ先生 プロンプト工学・AIエージェント・ハーネス | 1論文1ページ図解(エンジニア向け) 33 / 33