---
title: ハーネスエンジニアリング_原理原則_中堅理系.pptx
tags:  #ハーネスエンジニアリング  
author: [smile_yukiko_it](https://www.docswell.com/user/smile_yukiko_it)
site: [Docswell](https://www.docswell.com/)
thumbnail: https://bcdn.docswell.com/page/9729W1X1JR.jpg?width=480
description: ハーネスエンジニアリング_原理原則_中堅理系.pptx by smile_yukiko_it
published: June 11, 26
canonical: https://www.docswell.com/s/smile_yukiko_it/KE1YYE-2026-06-11-200338
---
# Page. 1

![Page Image](https://bcdn.docswell.com/page/9729W1X1JR.jpg)

HARNESS ENGINEERING · PRINCIPLES
ハーネスエンジニアリング 原理原則
中堅エンジニア（理系）向け・完全版 ― 2026年の最新論文と公式記事にもとづく
原理 → 構成 H=(E,T,C,S,L,V) → 対応フロー → パターン別メリデメ → おすすめ＋理由 → 学び方
面白きこともなき世を面白く
うさうさ研修工房


# Page. 2

![Page Image](https://bcdn.docswell.com/page/DJY4LZ847M.jpg)

SCOPE
前提と地図
対象：エージェントを一度は実装した中堅。狙い：ハーネスを “設計対象”として原理から扱えるようにする。
原理
エージェント＝モデル φ ＋ 足場 A。性能はハー
ネスに律速される。
パターン別
設計類型ごとのメリット・デメリットと適用場面。
うさうさ研修工房
構成
ハーネスを 6成分の形式モデル H=(E,T,C,S,L,V)
で捉える。
おすすめ
推奨と“なぜ”を実証データで裏づけて提示。
対応フロー
観測→切り分け→介入→評価→恒久化のステッ
プ。
学び方
中堅が原理から実装まで到達するロードマップ。
01


# Page. 3

![Page Image](https://bcdn.docswell.com/page/V7NY43Q6E8.jpg)

PRINCIPLE 1 · 定義
ハーネスとは何か（形式的定義）
Agent = φ (base model) ⊕ A (harness / scaffold)
ハーネス＝実行基盤
モデルを“動くエージェント ”にする周辺ソフト一
式。Anthropicは社内で scaﬀold（足場）と定 義。
制御プレーン
推論ループ・ツール発行・文脈 /状態管理・安全・
観測を統べる層。モデルは推論器、ハーネスは
その身体。
一級の設計対象
2026年のサーベイは、ハーネスを “暗黙のインフ
ラ”から明示的な研究対象へ格上げ。
出典：Meng et al.「Agent Harness for LLM Agents: A Survey」(Preprints.org, 2026, 査読中) ／ Anthropic 公式エンジニアリング記事。
うさうさ研修工房
02


# Page. 4

![Page Image](https://bcdn.docswell.com/page/YJ9PQ9DR73.jpg)

PRINCIPLE 2 · 実証
性能の律速は “モデル”でなく“ハーネス ”
2026年のサーベイが整理した実証。モデルを変えずにハーネスを変えるだけで結果が激変する。
6.7% → 68.3%
52.8% → 66.5%
76.4%
Grok Code Fast 1：編集ツール形式
（str_replace→hashline）だけを変更し
LangChain DeepAgents：ハーネスのみ変更
で TerminalBench が +26%。モデルは不変
Meta-Harness：ハーネスの自動最適化が
TerminalBench-2 で手作業設計を上回る
SWE-bench が10倍改善。モデルは不変
（Boluk 2026）
出典：Meng et al.「Agent Harness for LLM Agents: A Survey」(Preprints.org, 2026) が集約した実証（Boluk 2026／LangChain／Meta-Harness）。原理：ハーネスは本番信頼性の binding constraint。
うさうさ研修工房
03


# Page. 5

![Page Image](https://bcdn.docswell.com/page/GJ8DG93GJD.jpg)

STRUCTURE · 原理原則
ハーネスの 6成分モデル H = (E, T, C, S, L, V)
サーベイの形式化。介入も評価も、この 6成分のどれを触るかで整理できる。
E
実行ループ
観測→思考→行動の反復、終了条件、エラー復
旧
S
状態ストア
ターン/セッションをまたぐ永続化、クラッシュ復旧
T
ツールレジストリ
型付きツール群、ルーティング、スキーマ検証、
監視
L
ライフサイクル
認証・ロギング・ポリシー強制・計装
(instrumentation)
C
文脈マネージャ
窓に何を入れるか、圧縮 (compaction)、検索
V
評価インタフェース
行動軌跡・中間状態・成功シグナルの取り出し
出典：Meng et al. (2026)「Agent Harness: A Survey」の6成分定義 H=(E,T,C,S,L,V)。
うさうさ研修工房
04


# Page. 6

![Page Image](https://bcdn.docswell.com/page/LJLMGWVXER.jpg)

WORKFLOW · 対応フロー
ハーネス問題への対応フロー（ステップ）
不具合や性能不足に出会ったときの定石。介入は「ハーネス →プロンプト→モデル」の順。
1
2
観測
トレース(L,V)で
軌跡を可視化
→
3
切り分け
E/T/C/S/L/V の
どれが原因か特定
→
4
介入
該当成分を修正
(まずハーネス側 )
→
5
評価
評価ハーネス (V)で
再測・回帰確認
→
恒久化
規則/新ツールに
変換し再発防止
介入の優先順位： ハーネス（E/T/C/S/L/V）→ プロンプト → モデル。 モデル変更は最後（コスト大・効果不確実）。まず安い・確実なハーネス側から。
うさうさ研修工房
05


# Page. 7

![Page Image](https://bcdn.docswell.com/page/47MYQ9G37W.jpg)

PATTERNS · 類型
ハーネス設計パターン（ 6類型）
目的に応じて選ぶ。次ページでメリット・デメリットと適用場面を比較する。
最小／ネイティブ SDK
素のループに最小限。ネイティブ SDKの想定に
合わせる
マルチエージェント
親子委譲またはハンドオフで分担・統合
うさうさ研修工房
モジュラー
知覚・記憶・推論を差し替え可能な部品に分離
評価ハーネス
同条件で挙動を採点。改善の客観的土台
長時間（複数窓）
初期化エージェント＋外部メモリで記憶を橋渡し
ランタイム適応／最適化
ハーネスを自動最適化（例
：Meta-Harness／HARBOR）
06


# Page. 8

![Page Image](https://bcdn.docswell.com/page/P7R98GZRE9.jpg)

PATTERNS · メリット／デメリット
パターン別の比較
パターン
メリット
デメリット
向く場面
最小／ネイティブ SDK
実装が軽い・密結合の恩恵で高性能
拡張性が低い
定型・短いタスク
モジュラー
再利用・どの部品が効くか分析可
設計と境界の手間
多様な環境・研究
長時間（複数窓）
記憶を越境して長尺タスク完遂
状態管理が複雑
数時間〜数日の作業
マルチエージェント
分担で複雑さに対応
管理負担・結合増
複雑さが読めない時
評価ハーネス
改善を客観化・回帰検知
構築/維持コスト
品質保証・継続運用
ランタイム適応 /最適化
モデル不変で自動チューニング
探索コスト・過適合注意
本番の継続最適化
うさうさ研修工房
07


# Page. 9

![Page Image](https://bcdn.docswell.com/page/PJXQ8X9Y7X.jpg)

TRADE-OFFS
総括 ― 効くとき・効かないとき と 落とし穴
「ハーネスが効く」と「効果は誤差範囲」は、どちらも実証あり。レジームで使い分ける。
ハーネス工学が効く理由
・ モデル非依存で改善できる（差し替え不要）
・ 観測(L)・評価(V)で再現性と説明性が出る
注意点・落とし穴
・ 効果が限定的な領域もある（タスク依存）
・ ハーネス-エージェント密結合：非標準化で劣化
・ 評価ハーネスの妥当性：ベンチ通過≠本番採用
・ 成功は移植・再利用しやすい
・ 複雑化のしすぎ：最小から始めない失敗
・ コーディング等タスクで大幅改善の実例（6.7→68.3%）
・ 観測・評価を後回しにすると改善も説明も不能
出典：Meng et al.(2026)／METR(2026) の知見を総合。
うさうさ研修工房
08


# Page. 10

![Page Image](https://bcdn.docswell.com/page/3JK9KWP4JD.jpg)

RECOMMENDATIONS · おすすめ＋なぜ
中堅エンジニアへの推奨（理由つき）
いずれも実証に裏づけられた “原理由来”の推奨。
まず観測と評価 (L,V)を入れる
なぜ： 計装なしに改善も回帰検知も不能。最初に軌跡と成功シグナルを取る。
ネイティブ SDK/標準に合わせる
なぜ： ハーネス-エージェント密結合のため、非標準は性能が落ちやすい。
失敗をシステムとして恒久化
なぜ： “環境の未規定 ”が失敗主因。規則 /新ツールに変換し再発を防ぐ。
うさうさ研修工房
モデルより先にハーネスを疑う
なぜ： 同一モデルでハーネス変更のみで大改善の実例（ 6.7→68.3%）。安く確
実。
文脈(C)を有限資源として設計
なぜ： 詰め込みは劣化 (context rot)。選別・圧縮・検索を仕組み化する。
評価ハーネスの妥当性を監視
なぜ： ベンチ通過と本番採用は乖離しうる（ METR 2026）。指標の妥当性を定点
観測。
09


# Page. 11

![Page Image](https://bcdn.docswell.com/page/LE3WZ1XDE5.jpg)

LEARNING PATH · 学び方
中堅のための学習ロードマップ（ステップ）
原理の地図 → 最小実装 → 計装 → 成分別の深掘り → 本番ハーネス読解 → 最適化。
地図を持つ
1
サーベイで H=(E,T,C,S,L,V)と論争を把握する
最小ハーネスを実装
2
成分別に深掘り
L/Vを計装
3
トレースと評価を入れ、軌跡と成功率を可視化
4
本番ハーネスを読む
5
うさうさ研修工房
Claude Code等のコーディングハーネスを精読
ReActループを自前で書き、ツールを 1つ接続
文脈・記憶・ツール・安全を 1つずつ強化
最適化を回す
6
自タスクで評価駆動の改善を反復・恒久化
10


# Page. 12

![Page Image](https://bcdn.docswell.com/page/8EDKRX227G.jpg)

SUMMARY
要点
1
原理：Agent = φ ⊕ A。本番の信頼性はモデルでなくハーネス A が律速する。
2
構成：ハーネスは6成分 H=(E,T,C,S,L,V)。介入も評価もこの単位で整理する。
3
対応フロー：観測→切り分け→介入→評価→恒久化。介入はハーネス→プロンプト→モデルの順。
4
パターンは目的で選ぶ。最小から始め、必要分だけモジュラー/長時間/マルチへ拡張。
5
推奨は実証由来：観測と評価を先に入れ、モデルより先にハーネスを疑う。
面白きこともなき世を面白く


# Page. 13

![Page Image](https://bcdn.docswell.com/page/V7PKWP1LJ8.jpg)

REFERENCES
参考文献（最新論文・公式／無料）
論文
Meng et al. “Agent Harness for LLM Agents: A Survey” (Preprints.org, 2026, v3／査読
前)
preprints.org/manuscript/202604.0428
論文
Zhang et al. “General Modular Harness for LLM Agents” (ICML 2025)
arxiv.org/abs/2507.11633
論文
Mei et al. “A Survey of Context Engineering for LLMs” (2025)
arxiv.org/abs/2507.13334
論文
Yao et al. “ReAct” (ICLR 2023) ／ Shinn et al. “Reﬂexion” (NeurIPS 2023)
arxiv.org/abs/2210.03629
論文
Jimenez et al. “SWE-bench” (ICLR 2024)＝評価ハーネスの代表例
arxiv.org/abs/2310.06770
公式
Anthropic “Eﬀective harnesses for long-running agents”
anthropic.com/engineering/eﬀective-harnesses-for-long-runn
ing-agents
公式
Anthropic “Eﬀective context engineering” ／ “Writing eﬀective tools”
anthropic.com/engineering/eﬀective-context-engineering-for
-ai-agents
公式
Anthropic “Building eﬀective agents” ／ OpenAI “A practical guide to building
agents”
anthropic.com/engineering/building-eﬀective-agents
※ いずれも無料で閲覧可。査読前プレプリントは取り扱いに注意。 2026年6月時点で確認。
うさうさ研修工房
11