ハーネスエンジニアリング_原理原則_中堅理系.pptx

>100 Views

June 11, 26

スライド概要

profile-image

何卒よろしくお願い申し上げます。 一流のIT研修講師を目指し、日々研鑽を続けております。 本資料は外部公開用としてご提供するものです。

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

HARNESS ENGINEERING · PRINCIPLES ハーネスエンジニアリング 原理原則 中堅エンジニア(理系)向け・完全版 ― 2026年の最新論文と公式記事にもとづく 原理 → 構成 H=(E,T,C,S,L,V) → 対応フロー → パターン別メリデメ → おすすめ+理由 → 学び方 面白きこともなき世を面白く うさうさ研修工房

2.

SCOPE 前提と地図 対象:エージェントを一度は実装した中堅。狙い:ハーネスを “設計対象”として原理から扱えるようにする。 原理 エージェント=モデル φ + 足場 A。性能はハー ネスに律速される。 パターン別 設計類型ごとのメリット・デメリットと適用場面。 うさうさ研修工房 構成 ハーネスを 6成分の形式モデル H=(E,T,C,S,L,V) で捉える。 おすすめ 推奨と“なぜ”を実証データで裏づけて提示。 対応フロー 観測→切り分け→介入→評価→恒久化のステッ プ。 学び方 中堅が原理から実装まで到達するロードマップ。 01

3.

PRINCIPLE 1 · 定義 ハーネスとは何か(形式的定義) Agent = φ (base model) ⊕ A (harness / scaffold) ハーネス=実行基盤 モデルを“動くエージェント ”にする周辺ソフト一 式。Anthropicは社内で scaffold(足場)と定 義。 制御プレーン 推論ループ・ツール発行・文脈 /状態管理・安全・ 観測を統べる層。モデルは推論器、ハーネスは その身体。 一級の設計対象 2026年のサーベイは、ハーネスを “暗黙のインフ ラ”から明示的な研究対象へ格上げ。 出典:Meng et al.「Agent Harness for LLM Agents: A Survey」(Preprints.org, 2026, 査読中) / Anthropic 公式エンジニアリング記事。 うさうさ研修工房 02

4.

PRINCIPLE 2 · 実証 性能の律速は “モデル”でなく“ハーネス ” 2026年のサーベイが整理した実証。モデルを変えずにハーネスを変えるだけで結果が激変する。 6.7% → 68.3% 52.8% → 66.5% 76.4% Grok Code Fast 1:編集ツール形式 (str_replace→hashline)だけを変更し LangChain DeepAgents:ハーネスのみ変更 で TerminalBench が +26%。モデルは不変 Meta-Harness:ハーネスの自動最適化が TerminalBench-2 で手作業設計を上回る SWE-bench が10倍改善。モデルは不変 (Boluk 2026) 出典:Meng et al.「Agent Harness for LLM Agents: A Survey」(Preprints.org, 2026) が集約した実証(Boluk 2026/LangChain/Meta-Harness)。原理:ハーネスは本番信頼性の binding constraint。 うさうさ研修工房 03

5.

STRUCTURE · 原理原則 ハーネスの 6成分モデル H = (E, T, C, S, L, V) サーベイの形式化。介入も評価も、この 6成分のどれを触るかで整理できる。 E 実行ループ 観測→思考→行動の反復、終了条件、エラー復 旧 S 状態ストア ターン/セッションをまたぐ永続化、クラッシュ復旧 T ツールレジストリ 型付きツール群、ルーティング、スキーマ検証、 監視 L ライフサイクル 認証・ロギング・ポリシー強制・計装 (instrumentation) C 文脈マネージャ 窓に何を入れるか、圧縮 (compaction)、検索 V 評価インタフェース 行動軌跡・中間状態・成功シグナルの取り出し 出典:Meng et al. (2026)「Agent Harness: A Survey」の6成分定義 H=(E,T,C,S,L,V)。 うさうさ研修工房 04

6.

WORKFLOW · 対応フロー ハーネス問題への対応フロー(ステップ) 不具合や性能不足に出会ったときの定石。介入は「ハーネス →プロンプト→モデル」の順。 1 2 観測 トレース(L,V)で 軌跡を可視化 → 3 切り分け E/T/C/S/L/V の どれが原因か特定 → 4 介入 該当成分を修正 (まずハーネス側 ) → 5 評価 評価ハーネス (V)で 再測・回帰確認 → 恒久化 規則/新ツールに 変換し再発防止 介入の優先順位: ハーネス(E/T/C/S/L/V)→ プロンプト → モデル。 モデル変更は最後(コスト大・効果不確実)。まず安い・確実なハーネス側から。 うさうさ研修工房 05

7.

PATTERNS · 類型 ハーネス設計パターン( 6類型) 目的に応じて選ぶ。次ページでメリット・デメリットと適用場面を比較する。 最小/ネイティブ SDK 素のループに最小限。ネイティブ SDKの想定に 合わせる マルチエージェント 親子委譲またはハンドオフで分担・統合 うさうさ研修工房 モジュラー 知覚・記憶・推論を差し替え可能な部品に分離 評価ハーネス 同条件で挙動を採点。改善の客観的土台 長時間(複数窓) 初期化エージェント+外部メモリで記憶を橋渡し ランタイム適応/最適化 ハーネスを自動最適化(例 :Meta-Harness/HARBOR) 06

8.

PATTERNS · メリット/デメリット パターン別の比較 パターン メリット デメリット 向く場面 最小/ネイティブ SDK 実装が軽い・密結合の恩恵で高性能 拡張性が低い 定型・短いタスク モジュラー 再利用・どの部品が効くか分析可 設計と境界の手間 多様な環境・研究 長時間(複数窓) 記憶を越境して長尺タスク完遂 状態管理が複雑 数時間〜数日の作業 マルチエージェント 分担で複雑さに対応 管理負担・結合増 複雑さが読めない時 評価ハーネス 改善を客観化・回帰検知 構築/維持コスト 品質保証・継続運用 ランタイム適応 /最適化 モデル不変で自動チューニング 探索コスト・過適合注意 本番の継続最適化 うさうさ研修工房 07

9.

TRADE-OFFS 総括 ― 効くとき・効かないとき と 落とし穴 「ハーネスが効く」と「効果は誤差範囲」は、どちらも実証あり。レジームで使い分ける。 ハーネス工学が効く理由 ・ モデル非依存で改善できる(差し替え不要) ・ 観測(L)・評価(V)で再現性と説明性が出る 注意点・落とし穴 ・ 効果が限定的な領域もある(タスク依存) ・ ハーネス-エージェント密結合:非標準化で劣化 ・ 評価ハーネスの妥当性:ベンチ通過≠本番採用 ・ 成功は移植・再利用しやすい ・ 複雑化のしすぎ:最小から始めない失敗 ・ コーディング等タスクで大幅改善の実例(6.7→68.3%) ・ 観測・評価を後回しにすると改善も説明も不能 出典:Meng et al.(2026)/METR(2026) の知見を総合。 うさうさ研修工房 08

10.

RECOMMENDATIONS · おすすめ+なぜ 中堅エンジニアへの推奨(理由つき) いずれも実証に裏づけられた “原理由来”の推奨。 まず観測と評価 (L,V)を入れる なぜ: 計装なしに改善も回帰検知も不能。最初に軌跡と成功シグナルを取る。 ネイティブ SDK/標準に合わせる なぜ: ハーネス-エージェント密結合のため、非標準は性能が落ちやすい。 失敗をシステムとして恒久化 なぜ: “環境の未規定 ”が失敗主因。規則 /新ツールに変換し再発を防ぐ。 うさうさ研修工房 モデルより先にハーネスを疑う なぜ: 同一モデルでハーネス変更のみで大改善の実例( 6.7→68.3%)。安く確 実。 文脈(C)を有限資源として設計 なぜ: 詰め込みは劣化 (context rot)。選別・圧縮・検索を仕組み化する。 評価ハーネスの妥当性を監視 なぜ: ベンチ通過と本番採用は乖離しうる( METR 2026)。指標の妥当性を定点 観測。 09

11.

LEARNING PATH · 学び方 中堅のための学習ロードマップ(ステップ) 原理の地図 → 最小実装 → 計装 → 成分別の深掘り → 本番ハーネス読解 → 最適化。 地図を持つ 1 サーベイで H=(E,T,C,S,L,V)と論争を把握する 最小ハーネスを実装 2 成分別に深掘り L/Vを計装 3 トレースと評価を入れ、軌跡と成功率を可視化 4 本番ハーネスを読む 5 うさうさ研修工房 Claude Code等のコーディングハーネスを精読 ReActループを自前で書き、ツールを 1つ接続 文脈・記憶・ツール・安全を 1つずつ強化 最適化を回す 6 自タスクで評価駆動の改善を反復・恒久化 10

12.

SUMMARY 要点 1 原理:Agent = φ ⊕ A。本番の信頼性はモデルでなくハーネス A が律速する。 2 構成:ハーネスは6成分 H=(E,T,C,S,L,V)。介入も評価もこの単位で整理する。 3 対応フロー:観測→切り分け→介入→評価→恒久化。介入はハーネス→プロンプト→モデルの順。 4 パターンは目的で選ぶ。最小から始め、必要分だけモジュラー/長時間/マルチへ拡張。 5 推奨は実証由来:観測と評価を先に入れ、モデルより先にハーネスを疑う。 面白きこともなき世を面白く

13.

REFERENCES 参考文献(最新論文・公式/無料) 論文 Meng et al. “Agent Harness for LLM Agents: A Survey” (Preprints.org, 2026, v3/査読 前) preprints.org/manuscript/202604.0428 論文 Zhang et al. “General Modular Harness for LLM Agents” (ICML 2025) arxiv.org/abs/2507.11633 論文 Mei et al. “A Survey of Context Engineering for LLMs” (2025) arxiv.org/abs/2507.13334 論文 Yao et al. “ReAct” (ICLR 2023) / Shinn et al. “Reflexion” (NeurIPS 2023) arxiv.org/abs/2210.03629 論文 Jimenez et al. “SWE-bench” (ICLR 2024)=評価ハーネスの代表例 arxiv.org/abs/2310.06770 公式 Anthropic “Effective harnesses for long-running agents” anthropic.com/engineering/effective-harnesses-for-long-runn ing-agents 公式 Anthropic “Effective context engineering” / “Writing effective tools” anthropic.com/engineering/effective-context-engineering-for -ai-agents 公式 Anthropic “Building effective agents” / OpenAI “A practical guide to building agents” anthropic.com/engineering/building-effective-agents ※ いずれも無料で閲覧可。査読前プレプリントは取り扱いに注意。 2026年6月時点で確認。 うさうさ研修工房 11