---
title: ハーネスエンジニアリング入門　AIエージェント開発×プロンプト_実務編
tags: 
author: [smile_yukiko_it](https://www.docswell.com/user/smile_yukiko_it)
site: [Docswell](https://www.docswell.com/)
thumbnail: https://bcdn.docswell.com/page/47ZL81WGJ3.jpg?width=480
description: ハーネスエンジニアリング入門　AIエージェント開発×プロンプト_実務編 by smile_yukiko_it
published: June 11, 26
canonical: https://www.docswell.com/s/smile_yukiko_it/5MQ66X-2026-06-11-192851
---
# Page. 1

![Page Image](https://bcdn.docswell.com/page/47ZL81WGJ3.jpg)

AI AGENT S × PRO MPT EN G INE ERI NG · PRA CTI CAL
AIエージェント開発と
プロンプトエンジニアリング
実務で使える知識まとめ ― 公式ドキュメント＆最新論文を精査した完全版（2026年6月時点）
面白きこともなき世を面白く
うさうさ研修工房


# Page. 2

![Page Image](https://bcdn.docswell.com/page/YJ6WPLGQJV.jpg)

MAP
全体の地図 ― 2部構成
前半でプロンプト、後半でエージェント。どちらも「最小から始めて、評価で育てる」が背骨です。
PART 1
PART 2
プロンプトエンジニアリング
AIエージェント開発
6本柱（指示・例・思考・構造・役割・出力）
ワークフロー vs エージェント／使いどき
具体例とCoT、推論モデル時代の変化
拡張LLMと5つの設計パターン
推論努力/冗長さの調整、改善ループ
ツール・文脈・記憶（ハーネス）
よくある失敗と対策
マルチエージェント・評価・ガードレール・MCP
うさうさ研修工房
01


# Page. 3

![Page Image](https://bcdn.docswell.com/page/GJ5MK1V2J4.jpg)

F IR S T P RI N C IP L E S
最初に握る3原則（全体に効く）
最小から始める
いきなり複雑な仕組みにしない。1回のLLM呼
び出し＋少しの工夫で足りることは多い。
複雑さは必要な分だけ
エージェント化は性能と引き換えに遅延・コ
スト増。費用対効果を見て段階的に。
評価で育てる
成功基準を先に決め、評価（eval）で測りな
がら改善を回す。勘ではなく数字。
出典： Anthropic「Building effective agents 」／OpenAI「A practical guide to building agents」（いずれも公式）
うさうさ研修工房
02


# Page. 4

![Page Image](https://bcdn.docswell.com/page/9E29W1317R.jpg)

PART 1 · 基礎
プロンプトエンジニアリングとは
定義
出力を“安定して”狙いどおりにするため、入力（指示）を構造化する技術。魔法の呪文探しではない。
たとえ
前提ゼロの優秀な新人への指示書。明確なほど成果が上がる。
詳細
clarity（明確さ）／examples（例）／reasoning（思考）／structure（構造）を組み合わせる。
一言
ファインチューニングより速く安く、モデル更新をまたいで効く“最初の打ち手”。
うさうさ研修工房
03


# Page. 5

![Page Image](https://bcdn.docswell.com/page/D7Y4LZ14EM.jpg)

PART 1 · 技法
効くプロンプトの6本柱
上から順に足していくと効果が積み上がる（Anthropic公式の体系）。
① 明確で詳細な指示
目的・対象・制約・前提を具体的に。曖昧さ
を残さない。
④ 構造化（XMLタグ）
指示・文脈・例をタグで区切る。誤読を防ぎ
再現性UP。
うさうさ研修工房
② 具体例（few-shot）
良い例を2〜3個。出力の“型”を例で示すのが
最速。
⑤ 役割・システム
「あなたは〇〇」で前提と語り口を固定する
。
③ 段階思考（CoT）
複雑な課題は考える手順を促す。※推論モデ
ルでは控えめに。
⑥ 出力形式の指定
JSON/見出し/文字数など、欲しい形を明示す
る。
04


# Page. 6

![Page Image](https://bcdn.docswell.com/page/VENY4326J8.jpg)

PART 1 · 技法
具体例（few-shot）の作法
「説明する」より「見せる」。出力の型は例で伝えるのが最短ルートです。
良い例の作り方
ミ ニ例 （ 分類 タ スク ）
入力：「配送が遅い」 → 出力：苦情
・ 2〜3個に絞る（多すぎは逆効果）
・ “境界線”の例を入れる（紛らわしいケース）
・ 入力→出力の対応を明確に
入力：「使い方を教えて」 → 出力：質問
入力：「ありがとう、最高！」 → 出力：称賛
・ 本番と同じ形式・粒度で書く
→ 3 例で「分類の軸」が伝わり、未知の入力にも一貫して答えられる。
うさうさ研修工房
05


# Page. 7

![Page Image](https://bcdn.docswell.com/page/Y79PQ91RE3.jpg)

PART 1 · 最新
思考の連鎖（CoT）と“推論モデル時代”の変化
2025〜26年の大きな転換：推論モデルは「考え方」を内に持つため、指示の出し方が変わりました。
従来モデル（〜2024頃）
推論モデル（GPT-5系・Claude Opus 4系 等）
・ 「順を追って考えて」と明示すると精度UP
・ CoTは内製済み。過剰な手順指示は“邪魔”になりうる
・ 手順をこちらが細かく与える(how)
・ 何を欲しいか(what)を先に＝アウトカム先行
・ 例や思考を盛るほど効きやすい
・ 最小の指示から始め、必要時だけ思考を明示
・ 「簡潔に/詳しく」など出力量は明示が有効
うさうさ研修工房
06


# Page. 8

![Page Image](https://bcdn.docswell.com/page/G78DG94G7D.jpg)

PART 1 · 技法
構造化 ― タグで区切り、形を指定する
指示・文脈・例をタグで囲うと誤読が減り、出力も安定します（Claudeはタグに強い）。
入力をタグで区切る
&lt;instructions&gt; 要約して &lt;/instructions&gt;
出力形式を指定する
・ JSONスキーマで型を固定（後段で機械処理）
&lt;context&gt; …長い資料… &lt;/context&gt;
&lt;example&gt; 良い要約の例 &lt;/example&gt;
・ 「見出し＋箇条書き3点」など構造を明示
・ 文字数・トーン・禁止事項も書く
・ 必要なら&lt;thinking&gt;で思考、&lt;answer&gt;で結論を分離
うさうさ研修工房
07


# Page. 9

![Page Image](https://bcdn.docswell.com/page/L7LMGW6XJR.jpg)

PART 1 · 最新
“さじ加減”を制御する（推論努力・冗長さ・主体性）
最新の公式ガイドが強調する実務ノブ。タスクに合わせて調整します。
推論努力(reasoning effort)
低=速く安く、高=深く正確。多くの業務は中〜低で十分。
主体性(eagerness)
勝手に動きすぎる時は探索範囲・停止条件を指定して抑える。
冗長さ・出力量
「3〜6文/箇条書き5点まで」等、長さを明示すると安定。
新モデルは作り直す
旧プロンプトを引き継がず、最小から再チューニングが推奨。
出典： OpenAI「GPT-5 / 5.x prompting guide」（公式・2025–2026 ）
うさうさ研修工房
08


# Page. 10

![Page Image](https://bcdn.docswell.com/page/4EMYQ953EW.jpg)

PART 1 · 運用
プロンプト改善ループ ― 勘でなく評価で
「成功基準 → 評価 → 改善」を回す。これがプロンプトもエージェントも共通の土台です。
1
成功基準を決める
“良い出力”を具体・測定可能に
定義する
うさうさ研修工房
2
→
評価を用意
代表例で採点（自動 or 人手）
できる仕組みを作る
3
→
改善する
明確さ・例・構造を1要素ずつ
変えて比較
4
→
再測定・採用
数字が良くなったものだけ採
用。版を管理
09


# Page. 11

![Page Image](https://bcdn.docswell.com/page/PER98G3RJ9.jpg)

PART 1 · 注意
プロンプトのよくある失敗と対策
失敗
対策
指示が曖昧で出力がブレる
目的・対象・制約・出力形式を具体化する
例がなく“ 型” が伝わらない
良い例を2〜3個（境界例を含む）
推論モデルに手順を盛りすぎ
wh at先行・最小指示にし、思考は必要時だけ明示
長文を詰め込み精度低下
タグで区切る／不要文脈を削る（文脈管理）
勘で直し再現できない
成功基準＋評価で1要素ずつ検証・版管理
うさうさ研修工房
10


# Page. 12

![Page Image](https://bcdn.docswell.com/page/P7XQ8X4YEX.jpg)

PART 2 · 基礎
ワークフロー と エージェント の違い
Anthropicの定義。決まった段取りか、モデルが自分で段取りを決めるか、が分かれ目。
ワークフロー
エージェント
・ 人が決めた手順をコードでつなぐ
・ モデルが手順・ツール・終了を自分で決める
・ 予測可能・デバッグ容易・安価
・ 柔軟・自律的だが遅延/コスト増
・ 定型業務に強い
・ 曖昧で多段なタスクに強い
うさうさ研修工房
11


# Page. 13

![Page Image](https://bcdn.docswell.com/page/37K9KWZ47D.jpg)

PART 2 · 判断
いつエージェントにする？（最小から）
まず1回のLLM呼び出しで足りないか確認。足りない時だけ複雑さを足します。
1
単発のLLM呼び出し
分類・要約・抽出など。多くはこれで足りる。
2
検索/例で強化
RAGや具体例を足して精度を上げる。
3
ワークフロー
複数ステップを決まった順でつなぐ（予測可能）。
4
エージェント
手順が読めない・自律判断が要る時だけ。
原則：上から試し、ダメなら一段だけ上げる。最初からエージェントにしない。
うさうさ研修工房
12


# Page. 14

![Page Image](https://bcdn.docswell.com/page/LJ3WZ1DDJ5.jpg)

PART 2 · 構成
基本部品 ―「拡張LLM」
エージェントの最小単位。LLMに検索・ツール・記憶を足し、ループで回します。
検索（Retrieval）
検索
必要な知識を都度引いて文脈に入れる
↑
←
ツール
→
計算・API・コード実行など外界への手
ツール
記憶
LLM
記憶（Memory）
会話/作業の状態を保持・呼び出す
入力
うさうさ研修工房
→
→
出力
13


# Page. 15

![Page Image](https://bcdn.docswell.com/page/8JDKRXP2EG.jpg)

PART 2 · 設計
5つのワークフローパターン（Anthropic）
複雑な仕組みより、これら“部品”の組み合わせが実務では強い。
プロンプト連鎖
ルーティング
出力を次の入力へ。段階に分けて精度を上げ
る
入力を種類で振り分け、専用処理に渡す
オーケストレーター×ワー
カー
親が動的に分解し子に委譲（複雑さが読めな
い時）
うさうさ研修工房
評価者×最適化者
生成→採点→修正のループで品質を磨く
並列化
独立作業を同時実行／多数決で確度UP
選び方
定型→連鎖/ルーティング、複雑→親子、品質
重視→評価ループ
14


# Page. 16

![Page Image](https://bcdn.docswell.com/page/VEPKWPNL78.jpg)

PART 2 · 実装
ツール設計の作法 ― 道具は“説明書ごと”
ツール定義文もモデルの文脈に載る。良い道具と良い説明はセットです（Anthropic）。
明確に定義
1道具1役割。名前・引数・戻り値を曖昧にしない
組み合わせ可能に
小さな道具を多数。繋いで多様な作業を組む
文脈を節約
巨大な出力はページング・絞り込み・上限で抑える
エラーは“直し方”を返す
原因＋次の一手を文章で返し自力復帰させる
出典： Anthropic「Writing effective tools for AI agents 」（公式）
うさうさ研修工房
15


# Page. 17

![Page Image](https://bcdn.docswell.com/page/27VV82K67Q.jpg)

PART 2 · 実装
文脈エンジニアリング ― プロンプトの“その先”
Anthropicは「プロンプトエンジニアリングの自然な進化」と位置づけ。窓は有限資源。
選ぶ
指示・履歴・文書・ツールを必要十分に絞る
圧縮(compaction)
有限の“窓”を整える
埋まる前に古い履歴を要約してスペース確保
一度に読める量には上限がある。必要な情報だけ載せ
、終わったら片付ける――を仕組みで自動化する。
編集(context editing)
ルールで不要情報を機械的に削る
詰め込みすぎ注意
多い＝良いではない（context rot）
出典： Anthropic「Effective context engineering for AI agents 」（公式）
うさうさ研修工房
16


# Page. 18

![Page Image](https://bcdn.docswell.com/page/5JGL5RQ27L.jpg)

PART 2 · 実装
メモリと長時間タスク（ハーネス）
数時間〜数日の仕事は複数の文脈窓をまたぐ。記憶の橋渡しが鍵です。
たとえ：シフト制の現場 前任者の記憶を持たない担当が交代で入る ― これがエージェントの実態。
初期化エージェント
“失敗”から開始
外部メモリで橋渡し
最初の窓で“仕様ファイル”を作り後続の土台
に
各機能は未達から。テスト合格で完了に
進捗・決定をファイルに書き次の窓へ
出典： Anthropic「Effective harnesses for long-running agents 」（公式）
うさうさ研修工房
17


# Page. 19

![Page Image](https://bcdn.docswell.com/page/47QYZVK9EP.jpg)

PART 2 · 設計
マルチエージェント ― 司令塔と委譲
単体で足りない時だけ複数に。中央集権（マネージャ）か分散（ハンドオフ）か。
マネージャ型
司令塔（親）
↓
↓
↓
担当A
担当B
担当C
親が分解し子に委譲、結果を統合。中央で制御・要約したい
時に。
ハンドオフ型
分解して委譲 → 結果を統合
担当X
→
対等な担当へ実行ごと引き継ぐ。中央統合が不要な時に。
担当Y
ハンドオフ（実行を引き継ぐ）
出典： OpenAI「A practical guide to building agents」（公式）
うさうさ研修工房
18


# Page. 20

![Page Image](https://bcdn.docswell.com/page/KE4W3MKRJ1.jpg)

PART 2 · 運用
評価（eval）― “動いた気がする”を卒業する
エージェントは挙動が揺れる。代表課題で点数化し、改善を客観的に確かめます。
成功基準を定義
“正解”を具体・測定可能に。タスクごとに作る
自動採点
テスト/ルール/LLM採点で合否を機械判定
評価セットを用意
代表＋難所＋境界の例を集めデータ化
回帰で守る
変更のたび再評価し、劣化（後退）を検知
評価ハーネスの実例：SWE-bench（実課題＋テストで自動採点）／LM Evaluation Harness。
うさうさ研修工房
19


# Page. 21

![Page Image](https://bcdn.docswell.com/page/L71Y18XVJG.jpg)

PART 2 · 安全
ガードレールと人間の関与
入力から実行まで多層で守る。重要操作は人の承認を挟む（OpenAI公式）。
入力フィルタ（不正・無関係を弾く）
↓
ツール権限・上限（できる操作を制限）
↓
人間の承認（高リスク操作の前に）
↓
考 え方
・ “防げる失敗は設計で防ぐ”が基本姿勢
・ ルールベース＋LLM＋モデレーションを併用
・ 取り返しのつかない操作は必ず人の承認
・ 記録(トレース)が無いと改善も説明もできない
・ 最初は緩めず、本番前に必ず通す
トレーシング（全工程を記録・監視）
うさうさ研修工房
20


# Page. 22

![Page Image](https://bcdn.docswell.com/page/G7WG8ZN3E2.jpg)

PART 2 · 接続
MCP ― 道具を“共通プラグ”でつなぐ
Model Context Protocol。ツール接続の規格で、同じ作りを使い回せます。
な ぜ嬉 し い？
・ ツールごとの“つなぎ込み”を標準化
・ 一度作れば複数アプリ/モデルで再利用
エージェント
↓
・ 社内システム・SaaSを安全に接続
MCP
・ エージェントの“手”を増やす最短路
↓
↓
↓
社内DB
検索
ファイル
うさうさ研修工房
21


# Page. 23

![Page Image](https://bcdn.docswell.com/page/4JZL813GE3.jpg)

PART 2 · 実務
始め方ロードマップ と チェックリスト
始 め方 （ 最小 → 拡 張）
1
1回のLLM呼び出しで試す（評価も同時に作る）
出 荷前 チ ェッ ク
成功基準と評価セットがある
プロンプトは最小・構造化されている
2
効かない所だけ：例・検索・ツールを足す
ツールは説明＋エラー指針つき
3
手順が読めない時だけワークフロー/エージェント化
4
文脈管理・メモリ・ガードレールを順に追加
5
トレースを見て、失敗を恒久ルール/新ツールに変換
文脈あふれ対策（要約/編集）がある
高リスク操作に人の承認がある
トレースで挙動を追える
版管理し、変更で再評価している
うさうさ研修工房
22


# Page. 24

![Page Image](https://bcdn.docswell.com/page/YE6WPLXQEV.jpg)

SUMMARY
今日の要点
1
プロンプトは“魔法”でなく構造化。明確さ・例・思考・構造・役割・出力形式の6本柱。
2
推論モデル時代は『what先行・最小指示』。推論努力と出力量を調整する。
3
エージェントは最小から。1回の呼び出し→強化→ワークフロー→エージェントの順。
4
拡張LLM＋5パターン。ツール・文脈・メモリ（ハーネス）で信頼性を作る。
5
評価とガードレールが本番の生命線。勘でなく数字、危険操作は人が承認。
面白きこともなき世を面白く


# Page. 25

![Page Image](https://bcdn.docswell.com/page/GE5MK1X2E4.jpg)

RE FE REN C ES
参考にした公式一次情報（無料）
Anthropic
Prompt engineering overview / best practices
platform.claude.com/docs/.../prompt-engineering/overview
Anthropic
Building effective agents
anthropic.com/engineering/building-effective-agents
Anthropic
Effective context engineering for AI agents
anthropic.com/engineering/effective-context-engineering-for-ai-agents
Anthropic
Writing effective tools for AI agents
anthropic.com/engineering/writing-tools-for-agents
Anthropic
Effective harnesses for long-running agents
anthropic.com/engineering/effective-harnesses-for-long-running-agents
OpenAI
A practical guide to building agents (PDF)
cdn.openai.com/business-guides-and-resources/a-practical-guide-to-buildingagents.pdf
OpenAI
GPT-5 / 5.x prompting guide
developers.openai.com/cookbook/examples/gpt-5/gpt-5_prompting_guide
※ 公式ドキュメント／エンジニアリングブログを一次情報として参照（2026 年6月時点）。最新版は各URLで確認を。
うさうさ研修工房
23


