>100 Views
June 11, 26
スライド概要
何卒よろしくお願い申し上げます。 一流のIT研修講師を目指し、日々研鑽を続けております。 本資料は外部公開用としてご提供するものです。
AI AGENT S × PRO MPT EN G INE ERI NG · PRA CTI CAL AIエージェント開発と プロンプトエンジニアリング 実務で使える知識まとめ ― 公式ドキュメント&最新論文を精査した完全版(2026年6月時点) 面白きこともなき世を面白く うさうさ研修工房
MAP 全体の地図 ― 2部構成 前半でプロンプト、後半でエージェント。どちらも「最小から始めて、評価で育てる」が背骨です。 PART 1 PART 2 プロンプトエンジニアリング AIエージェント開発 6本柱(指示・例・思考・構造・役割・出力) ワークフロー vs エージェント/使いどき 具体例とCoT、推論モデル時代の変化 拡張LLMと5つの設計パターン 推論努力/冗長さの調整、改善ループ ツール・文脈・記憶(ハーネス) よくある失敗と対策 マルチエージェント・評価・ガードレール・MCP うさうさ研修工房 01
F IR S T P RI N C IP L E S 最初に握る3原則(全体に効く) 最小から始める いきなり複雑な仕組みにしない。1回のLLM呼 び出し+少しの工夫で足りることは多い。 複雑さは必要な分だけ エージェント化は性能と引き換えに遅延・コ スト増。費用対効果を見て段階的に。 評価で育てる 成功基準を先に決め、評価(eval)で測りな がら改善を回す。勘ではなく数字。 出典: Anthropic「Building effective agents 」/OpenAI「A practical guide to building agents」(いずれも公式) うさうさ研修工房 02
PART 1 · 基礎 プロンプトエンジニアリングとは 定義 出力を“安定して”狙いどおりにするため、入力(指示)を構造化する技術。魔法の呪文探しではない。 たとえ 前提ゼロの優秀な新人への指示書。明確なほど成果が上がる。 詳細 clarity(明確さ)/examples(例)/reasoning(思考)/structure(構造)を組み合わせる。 一言 ファインチューニングより速く安く、モデル更新をまたいで効く“最初の打ち手”。 うさうさ研修工房 03
PART 1 · 技法 効くプロンプトの6本柱 上から順に足していくと効果が積み上がる(Anthropic公式の体系)。 ① 明確で詳細な指示 目的・対象・制約・前提を具体的に。曖昧さ を残さない。 ④ 構造化(XMLタグ) 指示・文脈・例をタグで区切る。誤読を防ぎ 再現性UP。 うさうさ研修工房 ② 具体例(few-shot) 良い例を2〜3個。出力の“型”を例で示すのが 最速。 ⑤ 役割・システム 「あなたは〇〇」で前提と語り口を固定する 。 ③ 段階思考(CoT) 複雑な課題は考える手順を促す。※推論モデ ルでは控えめに。 ⑥ 出力形式の指定 JSON/見出し/文字数など、欲しい形を明示す る。 04
PART 1 · 技法 具体例(few-shot)の作法 「説明する」より「見せる」。出力の型は例で伝えるのが最短ルートです。 良い例の作り方 ミ ニ例 ( 分類 タ スク ) 入力:「配送が遅い」 → 出力:苦情 ・ 2〜3個に絞る(多すぎは逆効果) ・ “境界線”の例を入れる(紛らわしいケース) ・ 入力→出力の対応を明確に 入力:「使い方を教えて」 → 出力:質問 入力:「ありがとう、最高!」 → 出力:称賛 ・ 本番と同じ形式・粒度で書く → 3 例で「分類の軸」が伝わり、未知の入力にも一貫して答えられる。 うさうさ研修工房 05
PART 1 · 最新 思考の連鎖(CoT)と“推論モデル時代”の変化 2025〜26年の大きな転換:推論モデルは「考え方」を内に持つため、指示の出し方が変わりました。 従来モデル(〜2024頃) 推論モデル(GPT-5系・Claude Opus 4系 等) ・ 「順を追って考えて」と明示すると精度UP ・ CoTは内製済み。過剰な手順指示は“邪魔”になりうる ・ 手順をこちらが細かく与える(how) ・ 何を欲しいか(what)を先に=アウトカム先行 ・ 例や思考を盛るほど効きやすい ・ 最小の指示から始め、必要時だけ思考を明示 ・ 「簡潔に/詳しく」など出力量は明示が有効 うさうさ研修工房 06
PART 1 · 技法 構造化 ― タグで区切り、形を指定する 指示・文脈・例をタグで囲うと誤読が減り、出力も安定します(Claudeはタグに強い)。 入力をタグで区切る <instructions> 要約して </instructions> 出力形式を指定する ・ JSONスキーマで型を固定(後段で機械処理) <context> …長い資料… </context> <example> 良い要約の例 </example> ・ 「見出し+箇条書き3点」など構造を明示 ・ 文字数・トーン・禁止事項も書く ・ 必要なら<thinking>で思考、<answer>で結論を分離 うさうさ研修工房 07
PART 1 · 最新 “さじ加減”を制御する(推論努力・冗長さ・主体性) 最新の公式ガイドが強調する実務ノブ。タスクに合わせて調整します。 推論努力(reasoning effort) 低=速く安く、高=深く正確。多くの業務は中〜低で十分。 主体性(eagerness) 勝手に動きすぎる時は探索範囲・停止条件を指定して抑える。 冗長さ・出力量 「3〜6文/箇条書き5点まで」等、長さを明示すると安定。 新モデルは作り直す 旧プロンプトを引き継がず、最小から再チューニングが推奨。 出典: OpenAI「GPT-5 / 5.x prompting guide」(公式・2025–2026 ) うさうさ研修工房 08
PART 1 · 運用 プロンプト改善ループ ― 勘でなく評価で 「成功基準 → 評価 → 改善」を回す。これがプロンプトもエージェントも共通の土台です。 1 成功基準を決める “良い出力”を具体・測定可能に 定義する うさうさ研修工房 2 → 評価を用意 代表例で採点(自動 or 人手) できる仕組みを作る 3 → 改善する 明確さ・例・構造を1要素ずつ 変えて比較 4 → 再測定・採用 数字が良くなったものだけ採 用。版を管理 09
PART 1 · 注意 プロンプトのよくある失敗と対策 失敗 対策 指示が曖昧で出力がブレる 目的・対象・制約・出力形式を具体化する 例がなく“ 型” が伝わらない 良い例を2〜3個(境界例を含む) 推論モデルに手順を盛りすぎ wh at先行・最小指示にし、思考は必要時だけ明示 長文を詰め込み精度低下 タグで区切る/不要文脈を削る(文脈管理) 勘で直し再現できない 成功基準+評価で1要素ずつ検証・版管理 うさうさ研修工房 10
PART 2 · 基礎 ワークフロー と エージェント の違い Anthropicの定義。決まった段取りか、モデルが自分で段取りを決めるか、が分かれ目。 ワークフロー エージェント ・ 人が決めた手順をコードでつなぐ ・ モデルが手順・ツール・終了を自分で決める ・ 予測可能・デバッグ容易・安価 ・ 柔軟・自律的だが遅延/コスト増 ・ 定型業務に強い ・ 曖昧で多段なタスクに強い うさうさ研修工房 11
PART 2 · 判断 いつエージェントにする?(最小から) まず1回のLLM呼び出しで足りないか確認。足りない時だけ複雑さを足します。 1 単発のLLM呼び出し 分類・要約・抽出など。多くはこれで足りる。 2 検索/例で強化 RAGや具体例を足して精度を上げる。 3 ワークフロー 複数ステップを決まった順でつなぐ(予測可能)。 4 エージェント 手順が読めない・自律判断が要る時だけ。 原則:上から試し、ダメなら一段だけ上げる。最初からエージェントにしない。 うさうさ研修工房 12
PART 2 · 構成 基本部品 ―「拡張LLM」 エージェントの最小単位。LLMに検索・ツール・記憶を足し、ループで回します。 検索(Retrieval) 検索 必要な知識を都度引いて文脈に入れる ↑ ← ツール → 計算・API・コード実行など外界への手 ツール 記憶 LLM 記憶(Memory) 会話/作業の状態を保持・呼び出す 入力 うさうさ研修工房 → → 出力 13
PART 2 · 設計 5つのワークフローパターン(Anthropic) 複雑な仕組みより、これら“部品”の組み合わせが実務では強い。 プロンプト連鎖 ルーティング 出力を次の入力へ。段階に分けて精度を上げ る 入力を種類で振り分け、専用処理に渡す オーケストレーター×ワー カー 親が動的に分解し子に委譲(複雑さが読めな い時) うさうさ研修工房 評価者×最適化者 生成→採点→修正のループで品質を磨く 並列化 独立作業を同時実行/多数決で確度UP 選び方 定型→連鎖/ルーティング、複雑→親子、品質 重視→評価ループ 14
PART 2 · 実装 ツール設計の作法 ― 道具は“説明書ごと” ツール定義文もモデルの文脈に載る。良い道具と良い説明はセットです(Anthropic)。 明確に定義 1道具1役割。名前・引数・戻り値を曖昧にしない 組み合わせ可能に 小さな道具を多数。繋いで多様な作業を組む 文脈を節約 巨大な出力はページング・絞り込み・上限で抑える エラーは“直し方”を返す 原因+次の一手を文章で返し自力復帰させる 出典: Anthropic「Writing effective tools for AI agents 」(公式) うさうさ研修工房 15
PART 2 · 実装 文脈エンジニアリング ― プロンプトの“その先” Anthropicは「プロンプトエンジニアリングの自然な進化」と位置づけ。窓は有限資源。 選ぶ 指示・履歴・文書・ツールを必要十分に絞る 圧縮(compaction) 有限の“窓”を整える 埋まる前に古い履歴を要約してスペース確保 一度に読める量には上限がある。必要な情報だけ載せ 、終わったら片付ける――を仕組みで自動化する。 編集(context editing) ルールで不要情報を機械的に削る 詰め込みすぎ注意 多い=良いではない(context rot) 出典: Anthropic「Effective context engineering for AI agents 」(公式) うさうさ研修工房 16
PART 2 · 実装 メモリと長時間タスク(ハーネス) 数時間〜数日の仕事は複数の文脈窓をまたぐ。記憶の橋渡しが鍵です。 たとえ:シフト制の現場 前任者の記憶を持たない担当が交代で入る ― これがエージェントの実態。 初期化エージェント “失敗”から開始 外部メモリで橋渡し 最初の窓で“仕様ファイル”を作り後続の土台 に 各機能は未達から。テスト合格で完了に 進捗・決定をファイルに書き次の窓へ 出典: Anthropic「Effective harnesses for long-running agents 」(公式) うさうさ研修工房 17
PART 2 · 設計 マルチエージェント ― 司令塔と委譲 単体で足りない時だけ複数に。中央集権(マネージャ)か分散(ハンドオフ)か。 マネージャ型 司令塔(親) ↓ ↓ ↓ 担当A 担当B 担当C 親が分解し子に委譲、結果を統合。中央で制御・要約したい 時に。 ハンドオフ型 分解して委譲 → 結果を統合 担当X → 対等な担当へ実行ごと引き継ぐ。中央統合が不要な時に。 担当Y ハンドオフ(実行を引き継ぐ) 出典: OpenAI「A practical guide to building agents」(公式) うさうさ研修工房 18
PART 2 · 運用 評価(eval)― “動いた気がする”を卒業する エージェントは挙動が揺れる。代表課題で点数化し、改善を客観的に確かめます。 成功基準を定義 “正解”を具体・測定可能に。タスクごとに作る 自動採点 テスト/ルール/LLM採点で合否を機械判定 評価セットを用意 代表+難所+境界の例を集めデータ化 回帰で守る 変更のたび再評価し、劣化(後退)を検知 評価ハーネスの実例:SWE-bench(実課題+テストで自動採点)/LM Evaluation Harness。 うさうさ研修工房 19
PART 2 · 安全 ガードレールと人間の関与 入力から実行まで多層で守る。重要操作は人の承認を挟む(OpenAI公式)。 入力フィルタ(不正・無関係を弾く) ↓ ツール権限・上限(できる操作を制限) ↓ 人間の承認(高リスク操作の前に) ↓ 考 え方 ・ “防げる失敗は設計で防ぐ”が基本姿勢 ・ ルールベース+LLM+モデレーションを併用 ・ 取り返しのつかない操作は必ず人の承認 ・ 記録(トレース)が無いと改善も説明もできない ・ 最初は緩めず、本番前に必ず通す トレーシング(全工程を記録・監視) うさうさ研修工房 20
PART 2 · 接続 MCP ― 道具を“共通プラグ”でつなぐ Model Context Protocol。ツール接続の規格で、同じ作りを使い回せます。 な ぜ嬉 し い? ・ ツールごとの“つなぎ込み”を標準化 ・ 一度作れば複数アプリ/モデルで再利用 エージェント ↓ ・ 社内システム・SaaSを安全に接続 MCP ・ エージェントの“手”を増やす最短路 ↓ ↓ ↓ 社内DB 検索 ファイル うさうさ研修工房 21
PART 2 · 実務 始め方ロードマップ と チェックリスト 始 め方 ( 最小 → 拡 張) 1 1回のLLM呼び出しで試す(評価も同時に作る) 出 荷前 チ ェッ ク 成功基準と評価セットがある プロンプトは最小・構造化されている 2 効かない所だけ:例・検索・ツールを足す ツールは説明+エラー指針つき 3 手順が読めない時だけワークフロー/エージェント化 4 文脈管理・メモリ・ガードレールを順に追加 5 トレースを見て、失敗を恒久ルール/新ツールに変換 文脈あふれ対策(要約/編集)がある 高リスク操作に人の承認がある トレースで挙動を追える 版管理し、変更で再評価している うさうさ研修工房 22
SUMMARY 今日の要点 1 プロンプトは“魔法”でなく構造化。明確さ・例・思考・構造・役割・出力形式の6本柱。 2 推論モデル時代は『what先行・最小指示』。推論努力と出力量を調整する。 3 エージェントは最小から。1回の呼び出し→強化→ワークフロー→エージェントの順。 4 拡張LLM+5パターン。ツール・文脈・メモリ(ハーネス)で信頼性を作る。 5 評価とガードレールが本番の生命線。勘でなく数字、危険操作は人が承認。 面白きこともなき世を面白く
RE FE REN C ES 参考にした公式一次情報(無料) Anthropic Prompt engineering overview / best practices platform.claude.com/docs/.../prompt-engineering/overview Anthropic Building effective agents anthropic.com/engineering/building-effective-agents Anthropic Effective context engineering for AI agents anthropic.com/engineering/effective-context-engineering-for-ai-agents Anthropic Writing effective tools for AI agents anthropic.com/engineering/writing-tools-for-agents Anthropic Effective harnesses for long-running agents anthropic.com/engineering/effective-harnesses-for-long-running-agents OpenAI A practical guide to building agents (PDF) cdn.openai.com/business-guides-and-resources/a-practical-guide-to-buildingagents.pdf OpenAI GPT-5 / 5.x prompting guide developers.openai.com/cookbook/examples/gpt-5/gpt-5_prompting_guide ※ 公式ドキュメント/エンジニアリングブログを一次情報として参照(2026 年6月時点)。最新版は各URLで確認を。 うさうさ研修工房 23