ハーネスエンジニアリング_原理原則_中堅理系.pptx

112 Views

June 11, 26

#ハーネスエンジニアリング #LLMエージェント #AI設計 #ソフトウェア工学 #機械学習システム

スライド概要

smile_yukiko_it

@smile_yukiko_it

スライド一覧

何卒よろしくお願い申し上げます。一流のIT研修講師を目指し、日々研鑽を続けております。本資料は外部公開用としてご提供するものです。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

勉強会_ものづくりの6つの原理原則_理系向け6時間_2026_05_24_石黒友季子

ai駆動開発 ai

smile_yukiko_it 786

【公開】質問力研修_新入社員未経験向け

エンジニアコミュニケーション

smile_yukiko_it 405

ハーネスエンジニアリング入門　AIエージェント開発×プロンプト_実務編

smile_yukiko_it 204

ISO規格別_社内SE業務フロー資料

smile_yukiko_it 189

【新卒未経験学生向け】エンジニアコミュニケーションフレーズ集 💬エンジニアのためのコミュニケーションフレーズ集

smile_yukiko_it 171

LPIC3_303_Study

smile_yukiko_it 158

各ページのテキスト

HARNESS ENGINEERING · PRINCIPLES ハーネスエンジニアリング原理原則中堅エンジニア（理系）向け・完全版 ― 2026年の最新論文と公式記事にもとづく原理 → 構成 H=(E,T,C,S,L,V) → 対応フロー → パターン別メリデメ → おすすめ＋理由 → 学び方面白きこともなき世を面白くうさうさ研修工房

SCOPE 前提と地図対象：エージェントを一度は実装した中堅。狙い：ハーネスを “設計対象”として原理から扱えるようにする。原理エージェント＝モデル φ ＋足場 A。性能はハーネスに律速される。パターン別設計類型ごとのメリット・デメリットと適用場面。うさうさ研修工房構成ハーネスを 6成分の形式モデル H=(E,T,C,S,L,V) で捉える。おすすめ推奨と“なぜ”を実証データで裏づけて提示。対応フロー観測→切り分け→介入→評価→恒久化のステップ。学び方中堅が原理から実装まで到達するロードマップ。 01

PRINCIPLE 1 · 定義ハーネスとは何か（形式的定義） Agent = φ (base model) ⊕ A (harness / scaffold) ハーネス＝実行基盤モデルを“動くエージェント ”にする周辺ソフト一式。Anthropicは社内で scaﬀold（足場）と定義。制御プレーン推論ループ・ツール発行・文脈 /状態管理・安全・観測を統べる層。モデルは推論器、ハーネスはその身体。一級の設計対象 2026年のサーベイは、ハーネスを “暗黙のインフラ”から明示的な研究対象へ格上げ。出典：Meng et al.「Agent Harness for LLM Agents: A Survey」(Preprints.org, 2026, 査読中) ／ Anthropic 公式エンジニアリング記事。うさうさ研修工房 02

PRINCIPLE 2 · 実証性能の律速は “モデル”でなく“ハーネス ” 2026年のサーベイが整理した実証。モデルを変えずにハーネスを変えるだけで結果が激変する。 6.7% → 68.3% 52.8% → 66.5% 76.4% Grok Code Fast 1：編集ツール形式（str_replace→hashline）だけを変更し LangChain DeepAgents：ハーネスのみ変更で TerminalBench が +26%。モデルは不変 Meta-Harness：ハーネスの自動最適化が TerminalBench-2 で手作業設計を上回る SWE-bench が10倍改善。モデルは不変（Boluk 2026）出典：Meng et al.「Agent Harness for LLM Agents: A Survey」(Preprints.org, 2026) が集約した実証（Boluk 2026／LangChain／Meta-Harness）。原理：ハーネスは本番信頼性の binding constraint。うさうさ研修工房 03

STRUCTURE · 原理原則ハーネスの 6成分モデル H = (E, T, C, S, L, V) サーベイの形式化。介入も評価も、この 6成分のどれを触るかで整理できる。 E 実行ループ観測→思考→行動の反復、終了条件、エラー復旧 S 状態ストアターン/セッションをまたぐ永続化、クラッシュ復旧 T ツールレジストリ型付きツール群、ルーティング、スキーマ検証、監視 L ライフサイクル認証・ロギング・ポリシー強制・計装 (instrumentation) C 文脈マネージャ窓に何を入れるか、圧縮 (compaction)、検索 V 評価インタフェース行動軌跡・中間状態・成功シグナルの取り出し出典：Meng et al. (2026)「Agent Harness: A Survey」の6成分定義 H=(E,T,C,S,L,V)。うさうさ研修工房 04

WORKFLOW · 対応フローハーネス問題への対応フロー（ステップ）不具合や性能不足に出会ったときの定石。介入は「ハーネス →プロンプト→モデル」の順。 1 2 観測トレース(L,V)で軌跡を可視化 → 3 切り分け E/T/C/S/L/V のどれが原因か特定 → 4 介入該当成分を修正 (まずハーネス側 ) → 5 評価評価ハーネス (V)で再測・回帰確認 → 恒久化規則/新ツールに変換し再発防止介入の優先順位：ハーネス（E/T/C/S/L/V）→ プロンプト → モデル。モデル変更は最後（コスト大・効果不確実）。まず安い・確実なハーネス側から。うさうさ研修工房 05

PATTERNS · 類型ハーネス設計パターン（ 6類型）目的に応じて選ぶ。次ページでメリット・デメリットと適用場面を比較する。最小／ネイティブ SDK 素のループに最小限。ネイティブ SDKの想定に合わせるマルチエージェント親子委譲またはハンドオフで分担・統合うさうさ研修工房モジュラー知覚・記憶・推論を差し替え可能な部品に分離評価ハーネス同条件で挙動を採点。改善の客観的土台長時間（複数窓）初期化エージェント＋外部メモリで記憶を橋渡しランタイム適応／最適化ハーネスを自動最適化（例：Meta-Harness／HARBOR） 06

PATTERNS · メリット／デメリットパターン別の比較パターンメリットデメリット向く場面最小／ネイティブ SDK 実装が軽い・密結合の恩恵で高性能拡張性が低い定型・短いタスクモジュラー再利用・どの部品が効くか分析可設計と境界の手間多様な環境・研究長時間（複数窓）記憶を越境して長尺タスク完遂状態管理が複雑数時間〜数日の作業マルチエージェント分担で複雑さに対応管理負担・結合増複雑さが読めない時評価ハーネス改善を客観化・回帰検知構築/維持コスト品質保証・継続運用ランタイム適応 /最適化モデル不変で自動チューニング探索コスト・過適合注意本番の継続最適化うさうさ研修工房 07

TRADE-OFFS 総括 ― 効くとき・効かないときと落とし穴「ハーネスが効く」と「効果は誤差範囲」は、どちらも実証あり。レジームで使い分ける。ハーネス工学が効く理由・モデル非依存で改善できる（差し替え不要）・観測(L)・評価(V)で再現性と説明性が出る注意点・落とし穴・効果が限定的な領域もある（タスク依存）・ハーネス-エージェント密結合：非標準化で劣化・評価ハーネスの妥当性：ベンチ通過≠本番採用・成功は移植・再利用しやすい・複雑化のしすぎ：最小から始めない失敗・コーディング等タスクで大幅改善の実例（6.7→68.3%）・観測・評価を後回しにすると改善も説明も不能出典：Meng et al.(2026)／METR(2026) の知見を総合。うさうさ研修工房 08

10.

RECOMMENDATIONS · おすすめ＋なぜ中堅エンジニアへの推奨（理由つき）いずれも実証に裏づけられた “原理由来”の推奨。まず観測と評価 (L,V)を入れるなぜ：計装なしに改善も回帰検知も不能。最初に軌跡と成功シグナルを取る。ネイティブ SDK/標準に合わせるなぜ：ハーネス-エージェント密結合のため、非標準は性能が落ちやすい。失敗をシステムとして恒久化なぜ： “環境の未規定 ”が失敗主因。規則 /新ツールに変換し再発を防ぐ。うさうさ研修工房モデルより先にハーネスを疑うなぜ：同一モデルでハーネス変更のみで大改善の実例（ 6.7→68.3%）。安く確実。文脈(C)を有限資源として設計なぜ：詰め込みは劣化 (context rot)。選別・圧縮・検索を仕組み化する。評価ハーネスの妥当性を監視なぜ：ベンチ通過と本番採用は乖離しうる（ METR 2026）。指標の妥当性を定点観測。 09

11.

LEARNING PATH · 学び方中堅のための学習ロードマップ（ステップ）原理の地図 → 最小実装 → 計装 → 成分別の深掘り → 本番ハーネス読解 → 最適化。地図を持つ 1 サーベイで H=(E,T,C,S,L,V)と論争を把握する最小ハーネスを実装 2 成分別に深掘り L/Vを計装 3 トレースと評価を入れ、軌跡と成功率を可視化 4 本番ハーネスを読む 5 うさうさ研修工房 Claude Code等のコーディングハーネスを精読 ReActループを自前で書き、ツールを 1つ接続文脈・記憶・ツール・安全を 1つずつ強化最適化を回す 6 自タスクで評価駆動の改善を反復・恒久化 10

12.

SUMMARY 要点 1 原理：Agent = φ ⊕ A。本番の信頼性はモデルでなくハーネス A が律速する。 2 構成：ハーネスは6成分 H=(E,T,C,S,L,V)。介入も評価もこの単位で整理する。 3 対応フロー：観測→切り分け→介入→評価→恒久化。介入はハーネス→プロンプト→モデルの順。 4 パターンは目的で選ぶ。最小から始め、必要分だけモジュラー/長時間/マルチへ拡張。 5 推奨は実証由来：観測と評価を先に入れ、モデルより先にハーネスを疑う。面白きこともなき世を面白く

13.

REFERENCES 参考文献（最新論文・公式／無料）論文 Meng et al. “Agent Harness for LLM Agents: A Survey” (Preprints.org, 2026, v3／査読前) preprints.org/manuscript/202604.0428 論文 Zhang et al. “General Modular Harness for LLM Agents” (ICML 2025) arxiv.org/abs/2507.11633 論文 Mei et al. “A Survey of Context Engineering for LLMs” (2025) arxiv.org/abs/2507.13334 論文 Yao et al. “ReAct” (ICLR 2023) ／ Shinn et al. “Reﬂexion” (NeurIPS 2023) arxiv.org/abs/2210.03629 論文 Jimenez et al. “SWE-bench” (ICLR 2024)＝評価ハーネスの代表例 arxiv.org/abs/2310.06770 公式 Anthropic “Eﬀective harnesses for long-running agents” anthropic.com/engineering/eﬀective-harnesses-for-long-runn ing-agents 公式 Anthropic “Eﬀective context engineering” ／ “Writing eﬀective tools” anthropic.com/engineering/eﬀective-context-engineering-for -ai-agents 公式 Anthropic “Building eﬀective agents” ／ OpenAI “A practical guide to building agents” anthropic.com/engineering/building-eﬀective-agents ※ いずれも無料で閲覧可。査読前プレプリントは取り扱いに注意。 2026年6月時点で確認。うさうさ研修工房 11