ハーネスエンジニアリング入門　AIエージェント開発×プロンプト_実務編

203 Views

June 11, 26

#AIエージェント #プロンプトエンジニアリング #LLM #開発 #実務

スライド概要

smile_yukiko_it

@smile_yukiko_it

スライド一覧

何卒よろしくお願い申し上げます。一流のIT研修講師を目指し、日々研鑽を続けております。本資料は外部公開用としてご提供するものです。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

勉強会_ものづくりの6つの原理原則_理系向け6時間_2026_05_24_石黒友季子

ai駆動開発 ai

smile_yukiko_it 786

【公開】質問力研修_新入社員未経験向け

エンジニアコミュニケーション

smile_yukiko_it 405

ISO規格別_社内SE業務フロー資料

smile_yukiko_it 179

【新卒未経験学生向け】エンジニアコミュニケーションフレーズ集 💬エンジニアのためのコミュニケーションフレーズ集

smile_yukiko_it 171

LPIC3_303_Study

smile_yukiko_it 158

No.2【図解】メンター声掛けフレーズ集_18シーン

smile_yukiko_it 134

各ページのテキスト

AI AGENT S × PRO MPT EN G INE ERI NG · PRA CTI CAL AIエージェント開発とプロンプトエンジニアリング実務で使える知識まとめ ― 公式ドキュメント＆最新論文を精査した完全版（2026年6月時点）面白きこともなき世を面白くうさうさ研修工房

MAP 全体の地図 ― 2部構成前半でプロンプト、後半でエージェント。どちらも「最小から始めて、評価で育てる」が背骨です。 PART 1 PART 2 プロンプトエンジニアリング AIエージェント開発 6本柱（指示・例・思考・構造・役割・出力）ワークフロー vs エージェント／使いどき具体例とCoT、推論モデル時代の変化拡張LLMと5つの設計パターン推論努力/冗長さの調整、改善ループツール・文脈・記憶（ハーネス）よくある失敗と対策マルチエージェント・評価・ガードレール・MCP うさうさ研修工房 01

F IR S T P RI N C IP L E S 最初に握る3原則（全体に効く）最小から始めるいきなり複雑な仕組みにしない。1回のLLM呼び出し＋少しの工夫で足りることは多い。複雑さは必要な分だけエージェント化は性能と引き換えに遅延・コスト増。費用対効果を見て段階的に。評価で育てる成功基準を先に決め、評価（eval）で測りながら改善を回す。勘ではなく数字。出典： Anthropic「Building effective agents 」／OpenAI「A practical guide to building agents」（いずれも公式）うさうさ研修工房 02

PART 1 · 基礎プロンプトエンジニアリングとは定義出力を“安定して”狙いどおりにするため、入力（指示）を構造化する技術。魔法の呪文探しではない。たとえ前提ゼロの優秀な新人への指示書。明確なほど成果が上がる。詳細 clarity（明確さ）／examples（例）／reasoning（思考）／structure（構造）を組み合わせる。一言ファインチューニングより速く安く、モデル更新をまたいで効く“最初の打ち手”。うさうさ研修工房 03

PART 1 · 技法効くプロンプトの6本柱上から順に足していくと効果が積み上がる（Anthropic公式の体系）。 ① 明確で詳細な指示目的・対象・制約・前提を具体的に。曖昧さを残さない。 ④ 構造化（XMLタグ）指示・文脈・例をタグで区切る。誤読を防ぎ再現性UP。うさうさ研修工房 ② 具体例（few-shot）良い例を2〜3個。出力の“型”を例で示すのが最速。 ⑤ 役割・システム「あなたは〇〇」で前提と語り口を固定する。 ③ 段階思考（CoT）複雑な課題は考える手順を促す。※推論モデルでは控えめに。 ⑥ 出力形式の指定 JSON/見出し/文字数など、欲しい形を明示する。 04

PART 1 · 技法具体例（few-shot）の作法「説明する」より「見せる」。出力の型は例で伝えるのが最短ルートです。良い例の作り方ミニ例（分類タスク）入力：「配送が遅い」 → 出力：苦情・ 2〜3個に絞る（多すぎは逆効果）・ “境界線”の例を入れる（紛らわしいケース）・入力→出力の対応を明確に入力：「使い方を教えて」 → 出力：質問入力：「ありがとう、最高！」 → 出力：称賛・本番と同じ形式・粒度で書く → 3 例で「分類の軸」が伝わり、未知の入力にも一貫して答えられる。うさうさ研修工房 05

PART 1 · 最新思考の連鎖（CoT）と“推論モデル時代”の変化 2025〜26年の大きな転換：推論モデルは「考え方」を内に持つため、指示の出し方が変わりました。従来モデル（〜2024頃）推論モデル（GPT-5系・Claude Opus 4系等）・「順を追って考えて」と明示すると精度UP ・ CoTは内製済み。過剰な手順指示は“邪魔”になりうる・手順をこちらが細かく与える(how) ・何を欲しいか(what)を先に＝アウトカム先行・例や思考を盛るほど効きやすい・最小の指示から始め、必要時だけ思考を明示・「簡潔に/詳しく」など出力量は明示が有効うさうさ研修工房 06

PART 1 · 技法構造化 ― タグで区切り、形を指定する指示・文脈・例をタグで囲うと誤読が減り、出力も安定します（Claudeはタグに強い）。入力をタグで区切る <instructions> 要約して </instructions> 出力形式を指定する・ JSONスキーマで型を固定（後段で機械処理） <context> …長い資料… </context> <example> 良い要約の例 </example> ・「見出し＋箇条書き3点」など構造を明示・文字数・トーン・禁止事項も書く・必要なら<thinking>で思考、<answer>で結論を分離うさうさ研修工房 07

PART 1 · 最新 “さじ加減”を制御する（推論努力・冗長さ・主体性）最新の公式ガイドが強調する実務ノブ。タスクに合わせて調整します。推論努力(reasoning effort) 低=速く安く、高=深く正確。多くの業務は中〜低で十分。主体性(eagerness) 勝手に動きすぎる時は探索範囲・停止条件を指定して抑える。冗長さ・出力量「3〜6文/箇条書き5点まで」等、長さを明示すると安定。新モデルは作り直す旧プロンプトを引き継がず、最小から再チューニングが推奨。出典： OpenAI「GPT-5 / 5.x prompting guide」（公式・2025–2026 ）うさうさ研修工房 08

10.

PART 1 · 運用プロンプト改善ループ ― 勘でなく評価で「成功基準 → 評価 → 改善」を回す。これがプロンプトもエージェントも共通の土台です。 1 成功基準を決める “良い出力”を具体・測定可能に定義するうさうさ研修工房 2 → 評価を用意代表例で採点（自動 or 人手）できる仕組みを作る 3 → 改善する明確さ・例・構造を1要素ずつ変えて比較 4 → 再測定・採用数字が良くなったものだけ採用。版を管理 09

11.

PART 1 · 注意プロンプトのよくある失敗と対策失敗対策指示が曖昧で出力がブレる目的・対象・制約・出力形式を具体化する例がなく“ 型” が伝わらない良い例を2〜3個（境界例を含む）推論モデルに手順を盛りすぎ wh at先行・最小指示にし、思考は必要時だけ明示長文を詰め込み精度低下タグで区切る／不要文脈を削る（文脈管理）勘で直し再現できない成功基準＋評価で1要素ずつ検証・版管理うさうさ研修工房 10

12.

PART 2 · 基礎ワークフローとエージェントの違い Anthropicの定義。決まった段取りか、モデルが自分で段取りを決めるか、が分かれ目。ワークフローエージェント・人が決めた手順をコードでつなぐ・モデルが手順・ツール・終了を自分で決める・予測可能・デバッグ容易・安価・柔軟・自律的だが遅延/コスト増・定型業務に強い・曖昧で多段なタスクに強いうさうさ研修工房 11

13.

PART 2 · 判断いつエージェントにする？（最小から）まず1回のLLM呼び出しで足りないか確認。足りない時だけ複雑さを足します。 1 単発のLLM呼び出し分類・要約・抽出など。多くはこれで足りる。 2 検索/例で強化 RAGや具体例を足して精度を上げる。 3 ワークフロー複数ステップを決まった順でつなぐ（予測可能）。 4 エージェント手順が読めない・自律判断が要る時だけ。原則：上から試し、ダメなら一段だけ上げる。最初からエージェントにしない。うさうさ研修工房 12

14.

PART 2 · 構成基本部品 ―「拡張LLM」エージェントの最小単位。LLMに検索・ツール・記憶を足し、ループで回します。検索（Retrieval）検索必要な知識を都度引いて文脈に入れる ↑ ← ツール → 計算・API・コード実行など外界への手ツール記憶 LLM 記憶（Memory）会話/作業の状態を保持・呼び出す入力うさうさ研修工房 → → 出力 13

15.

PART 2 · 設計 5つのワークフローパターン（Anthropic）複雑な仕組みより、これら“部品”の組み合わせが実務では強い。プロンプト連鎖ルーティング出力を次の入力へ。段階に分けて精度を上げる入力を種類で振り分け、専用処理に渡すオーケストレーター×ワーカー親が動的に分解し子に委譲（複雑さが読めない時）うさうさ研修工房評価者×最適化者生成→採点→修正のループで品質を磨く並列化独立作業を同時実行／多数決で確度UP 選び方定型→連鎖/ルーティング、複雑→親子、品質重視→評価ループ 14

16.

PART 2 · 実装ツール設計の作法 ― 道具は“説明書ごと” ツール定義文もモデルの文脈に載る。良い道具と良い説明はセットです（Anthropic）。明確に定義 1道具1役割。名前・引数・戻り値を曖昧にしない組み合わせ可能に小さな道具を多数。繋いで多様な作業を組む文脈を節約巨大な出力はページング・絞り込み・上限で抑えるエラーは“直し方”を返す原因＋次の一手を文章で返し自力復帰させる出典： Anthropic「Writing effective tools for AI agents 」（公式）うさうさ研修工房 15

17.

PART 2 · 実装文脈エンジニアリング ― プロンプトの“その先” Anthropicは「プロンプトエンジニアリングの自然な進化」と位置づけ。窓は有限資源。選ぶ指示・履歴・文書・ツールを必要十分に絞る圧縮(compaction) 有限の“窓”を整える埋まる前に古い履歴を要約してスペース確保一度に読める量には上限がある。必要な情報だけ載せ、終わったら片付ける――を仕組みで自動化する。編集(context editing) ルールで不要情報を機械的に削る詰め込みすぎ注意多い＝良いではない（context rot）出典： Anthropic「Effective context engineering for AI agents 」（公式）うさうさ研修工房 16

18.

PART 2 · 実装メモリと長時間タスク（ハーネス）数時間〜数日の仕事は複数の文脈窓をまたぐ。記憶の橋渡しが鍵です。たとえ：シフト制の現場前任者の記憶を持たない担当が交代で入る ― これがエージェントの実態。初期化エージェント “失敗”から開始外部メモリで橋渡し最初の窓で“仕様ファイル”を作り後続の土台に各機能は未達から。テスト合格で完了に進捗・決定をファイルに書き次の窓へ出典： Anthropic「Effective harnesses for long-running agents 」（公式）うさうさ研修工房 17

19.

PART 2 · 設計マルチエージェント ― 司令塔と委譲単体で足りない時だけ複数に。中央集権（マネージャ）か分散（ハンドオフ）か。マネージャ型司令塔（親） ↓ ↓ ↓ 担当A 担当B 担当C 親が分解し子に委譲、結果を統合。中央で制御・要約したい時に。ハンドオフ型分解して委譲 → 結果を統合担当X → 対等な担当へ実行ごと引き継ぐ。中央統合が不要な時に。担当Y ハンドオフ（実行を引き継ぐ）出典： OpenAI「A practical guide to building agents」（公式）うさうさ研修工房 18

20.

PART 2 · 運用評価（eval）― “動いた気がする”を卒業するエージェントは挙動が揺れる。代表課題で点数化し、改善を客観的に確かめます。成功基準を定義 “正解”を具体・測定可能に。タスクごとに作る自動採点テスト/ルール/LLM採点で合否を機械判定評価セットを用意代表＋難所＋境界の例を集めデータ化回帰で守る変更のたび再評価し、劣化（後退）を検知評価ハーネスの実例：SWE-bench（実課題＋テストで自動採点）／LM Evaluation Harness。うさうさ研修工房 19

21.

PART 2 · 安全ガードレールと人間の関与入力から実行まで多層で守る。重要操作は人の承認を挟む（OpenAI公式）。入力フィルタ（不正・無関係を弾く） ↓ ツール権限・上限（できる操作を制限） ↓ 人間の承認（高リスク操作の前に） ↓ 考え方・ “防げる失敗は設計で防ぐ”が基本姿勢・ルールベース＋LLM＋モデレーションを併用・取り返しのつかない操作は必ず人の承認・記録(トレース)が無いと改善も説明もできない・最初は緩めず、本番前に必ず通すトレーシング（全工程を記録・監視）うさうさ研修工房 20

22.

PART 2 · 接続 MCP ― 道具を“共通プラグ”でつなぐ Model Context Protocol。ツール接続の規格で、同じ作りを使い回せます。なぜ嬉しい？・ツールごとの“つなぎ込み”を標準化・一度作れば複数アプリ/モデルで再利用エージェント ↓ ・社内システム・SaaSを安全に接続 MCP ・エージェントの“手”を増やす最短路 ↓ ↓ ↓ 社内DB 検索ファイルうさうさ研修工房 21

23.

PART 2 · 実務始め方ロードマップとチェックリスト始め方（最小 → 拡張） 1 1回のLLM呼び出しで試す（評価も同時に作る）出荷前チェック成功基準と評価セットがあるプロンプトは最小・構造化されている 2 効かない所だけ：例・検索・ツールを足すツールは説明＋エラー指針つき 3 手順が読めない時だけワークフロー/エージェント化 4 文脈管理・メモリ・ガードレールを順に追加 5 トレースを見て、失敗を恒久ルール/新ツールに変換文脈あふれ対策（要約/編集）がある高リスク操作に人の承認があるトレースで挙動を追える版管理し、変更で再評価しているうさうさ研修工房 22

24.

SUMMARY 今日の要点 1 プロンプトは“魔法”でなく構造化。明確さ・例・思考・構造・役割・出力形式の6本柱。 2 推論モデル時代は『what先行・最小指示』。推論努力と出力量を調整する。 3 エージェントは最小から。1回の呼び出し→強化→ワークフロー→エージェントの順。 4 拡張LLM＋5パターン。ツール・文脈・メモリ（ハーネス）で信頼性を作る。 5 評価とガードレールが本番の生命線。勘でなく数字、危険操作は人が承認。面白きこともなき世を面白く

25.

RE FE REN C ES 参考にした公式一次情報（無料） Anthropic Prompt engineering overview / best practices platform.claude.com/docs/.../prompt-engineering/overview Anthropic Building effective agents anthropic.com/engineering/building-effective-agents Anthropic Effective context engineering for AI agents anthropic.com/engineering/effective-context-engineering-for-ai-agents Anthropic Writing effective tools for AI agents anthropic.com/engineering/writing-tools-for-agents Anthropic Effective harnesses for long-running agents anthropic.com/engineering/effective-harnesses-for-long-running-agents OpenAI A practical guide to building agents (PDF) cdn.openai.com/business-guides-and-resources/a-practical-guide-to-buildingagents.pdf OpenAI GPT-5 / 5.x prompting guide developers.openai.com/cookbook/examples/gpt-5/gpt-5_prompting_guide ※ 公式ドキュメント／エンジニアリングブログを一次情報として参照（2026 年6月時点）。最新版は各URLで確認を。うさうさ研修工房 23

ハーネスエンジニアリング入門 AIエージェント開発×プロンプト_実務編