Harness_Engineering

-- Views

June 23, 26

#ハーネスエンジニアリング

スライド概要

smile_yukiko_it

@smile_yukiko_it

スライド一覧

何卒よろしくお願い申し上げます。一流のIT研修講師を目指し、日々研鑽を続けております。本資料は外部公開用としてご提供するものです。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

勉強会_ものづくりの6つの原理原則_理系向け6時間_2026_05_24_石黒友季子

ai駆動開発 ai

smile_yukiko_it 780

【公開】質問力研修_新入社員未経験向け

エンジニアコミュニケーション

smile_yukiko_it 402

ISO規格別_社内SE業務フロー資料

smile_yukiko_it 176

【新卒未経験学生向け】エンジニアコミュニケーションフレーズ集 💬エンジニアのためのコミュニケーションフレーズ集

smile_yukiko_it 155

LPIC3_303_Study

smile_yukiko_it 152

No.2【図解】メンター声掛けフレーズ集_18シーン

smile_yukiko_it 133

各ページのテキスト

PoCの壁を突破する「知能の設計図」ハーネスエンジニアリング原理原則 2026年最新論文と実証データに基づく、 AIエージェントの本番稼働に向けた体系的アプローチ。うさうさ研修工房

優秀なモデルを採用したのに、なぜPoCでつまずくのか？観測される事象・「タスクを完遂できない」・「途中でループに陥る」・「文脈を忘れる」エンジニアの誤解・「プロンプトの工夫が足りない」・「もっとパラメータ数の多い、賢いモデルに変えなければ…」真のボトルネック：問題は「脳（モデル）」の知能ではなく、それを動かす「身体（実行基盤）」の設計にある。

パラダイムシフト：エージェントの形式的定義 Agent = φ (Base Model) ⊕ A (Harness / Scaffold) φ（推論器）：LLMなどの基盤モデル。純粋な「思考」のエンジン。 A（足場・実行基盤）：モデルを“動くエージェント”にする周辺ソフト一式（制御プレーン）。 Anthropic社が「Scaffold（足場）」と呼ぶ領域。性能を最終的に律速するのはモデル（φ）ではなく、ハーネス（A）である。

実証データ：ハーネスの変更のみで性能は「10倍」飛躍するデータセット：SWE-bench（ソフトウェアエンジニアリングタスク） 68.3% PoC Target 6.7% 旧ハーネス新ハーネス： Grok Code Fast 1 モデルは一切不変。編集ツール形式を「str_replace」から「hashline」に変更しただけで10倍の改善。（Boluk 2026） Additional Evidence • LangChain DeepAgents (TerminalBench): ハーネス変更のみで+26% (52.8% → 66.5%) • Meta-Harness (TerminalBench-2): ハーネスの自動最適化が手作業設計を上回る (76.4%)

ハーネスの6成分形式モデル：H = (E, T, C, S, L, V) S: 状態ストア (State) コア実行層 T: ツールレジストリ (Tools) E: 実行ループ (Execution) C: 文脈マネージャ (Context) V: 評価インタフェース (Evaluation) インフラ層 (Infrastructure) L: ライフサイクル・観測 (Lifecycle) 2026年のサーベイ(Meng et al.)に基づく形式化。介入も評価も、この6成分の単位で設計・整理する。

Core Execution：エージェントの「思考と行動」を制御する E（実行ループ - Execution) • 役割：観測 → 思考 → 行動の反復サイクル。 • 設計要素：終了条件の定義、エラーからの自律的復旧（リカバリ）メカニズム。 T（ツールレジスト - Tools) • 役割：エージェントが外部と介入するための「手足」。 • 設計要素：型付きツール群の管理、ルーティング、厳格なスキーマ検証と監視。 C（文脈マネージャ - Context) • 役割：コンテキストウィンドウ（短期記憶）の最適化。 • 設計要素：窓に何を入れるかの選別、情報の圧縮 (compaction)、効率的な検索の仕組み。

Infrastructure：本番環境での「信頼性と再現性」を担保する S (状態ストア - State) • 役割：ターンやセッションをまたぐ記憶の永続化。 • 設計要素：外部データベースとの連携、クラッシュ時の確実な状態復旧。 L (ライフサイクル - Lifecycle) • 役割：セキュリティと可観測性 (Observability) の確保。 • 設計要素：認証、詳細なロギング、ポリシーの強制、計装計装(instrumentation)。 V (評価インタフェース - Evaluation) • 役割：改善のためのフィードバックループ。 • 設計要素：行動軌跡（トレース）の記録、中間状態の抽出、客観的な成功シグナルの定義。

トラブルシューティングの定石：5ステップ対応フロー観測 (Observe)：トレース(L,V)を用いてエージェントの行動軌跡を完全に可視化する。切り分け (Isolate)：問題がE/T/C/ S/L/Vのどの成分に起因するかを特定する。介入 (Intervene)：該当する成分のコード・設定を修正する。評価 (Evaluate)：評価ハーネス(V) で再計測し、回帰 (デグレード) がないか確認する。恒久化 (Permanence)：個別の対応をシステム規則や新しいツールに変換し、再発をシステムレベルで防止する。

The Golden Rule of Intervention：介入の絶対的な優先順位 1. ハーネス (Harness) [最優先] 2. プロンプト (Prompt) [次点] 3. モデル (Model) [最終手段] E, T, C, S, L, Vの修正。確実性が高く、コストが安い。システムプロンプトの調整。モデルの変更やファインチューニング。コストが甚大で、改善効果が不確実。「モデル変更は最後の手段。必ず安価で確実なハーネス側の修正から着手すること。」

10.

アーキテクチャ比較マトリクス：目的に応じた6つの設計類型 Pattern Pros Cons Best For 最小/ネイティブSDK 軽量・高パフォーマンス拡張性が低い定型・短いタスクモジュラー部品の再利用・分析が容易設計と境界定義の手間多様な環境・研究開発長時間（複数窓）記憶を越境し長尺タスク完遂状態管理が複雑化数時間〜数日の作業マルチエージェント親子委譲等で複雑さに対応管理負担・結合コスト増複雑さが読めないタスク評価ハーネス同条件での挙動採点・回帰検知構築と維持のコスト品質保証・継続運用ランタイム適応モデル不変で自動チューニング探索コスト・過適合のリスク本番環境の継続最適化

11.

トレードオフ：ハーネス工学が効くレジームと落とし穴 Why it Works - 効く理由 ■ モデル非依存で改善が可能（LLMの差し替えが不要）。 ■ 観測(L)と評価(V)により、再現性と説明性が担保される。 ■ コーディング等の複雑タスクで大幅改善の実例 (6.7% → 68.3%)。 Pitfalls - 注意点・落とし穴 ■ 複雑化のしすぎ：最初からマルチエージェント等を組み、最小構成から始めない失敗。 ■ 標準からの逸脱：ハーネスとエージェントは密結合。非標準化による劣化リスク。 ■ 評価の形骸化：観測・評価を後回しにすると改善不能に。また、ベンチマーク通過が本番採用と乖離するリスク。

12.

中堅エンジニアへの5つの戦略的推奨 1. 観測と評価(L,V)を最優先で導入するなぜ：計装なしに改善も回帰検知も不可能。最初に軌跡と成功シグナルを確保する。 2. モデルの前に、まずハーネスを疑うなぜ：モデル不変で10倍改善する事実（安く確実なアプローチ）。 3. ネイティブSDK/標準に合わせるなぜ：密結合の恩恵を受け、不必要な劣化を防ぐ。 4. 文脈(C)を「有限資源」として厳密に設計するなぜ：詰め込みは劣化（Context Rot)を招く。選別・圧縮・検索を仕組み化する。 5. 失敗を「システム」として恒久化するなぜ：環境の未規定が失敗の主因。個別のエラーを規則や新ツールに変換し、再発を防止する。

13.

ハーネスエンジニアリング習得へのロードマップ Step 1: 地図を持つ H=(E,T,C,S,L,V)のパラダイムをチームで共有する。 Step 3: 計装 (L/V) トレースと評価を組み込み、軌跡と成功率を可視化する。 Step 5: 本番コードの読解自社タスクにおいて、評価駆動の改善サイクルを回し統計を学ぶ。 Step 2: 最小実装 ReActループを自前で書き、ツールを1つだけ接続して動かす。 Step 4: 成分別の深掘り文脈・記憶・ツール・安全を1つずつ強化していく。 Step 6: 最適化の反復自社タスクにおいて、評価駆動の改善サイクルを回し続ける。

14.

Summary：本番稼働への鍵は「身体」の設計にある ● 原理：Agent = φ ⊕ A。本番の信頼性はモデルではなくハーネスが律速する。 ● 構成と介入：6成分 H=(E,T,C,S,L,V) で事象を切り分け、「ハーネス優先」で介入する。 ● 実践：最小構成から始め、観測(L) と評価(V)を基盤に、目的応じたアーキテクチャへと拡張する。「面白きこともなき世を面白く」最新論文(Meng et al. 2026 / SWE-bench 等)およびAnthropic公式技術録に基づく。うさうさ研修工房