>100 Views
June 11, 26
スライド概要
何卒よろしくお願い申し上げます。 一流のIT研修講師を目指し、日々研鑽を続けております。 本資料は外部公開用としてご提供するものです。
HARNESS ENGINEERING ハーネスエンジニアリング入門 AIエージェントを“動かす”足場(ハーネス)の設計 ― 0から原理原則まで 面白きこともなき世を面白く うさうさ研修工房
AGENDA 本日の地図 ― 4つの問い 「なぜ必要か → 何なのか → どう作るか → 実務でどう使うか」の順に進みます。 WHY WHAT HOW PRACTICE なぜ必要か 何なのか どう作るか 実務で使う 賢いLLMだけでは“動く”エージェン トにならない理由 ハーネス=モデルを包む足場。6 つの構成要素で理解 最小ループ・文脈管理・評価。手を 動かす型 失敗の型と対策、学習ロードマップ うさうさ研修工房 02
WHY ① なぜLLM“単体”では足りないのか LLMは一度の呼び出しで、与えられた文章に続きを書くだけ。世界には触れません。 手が無い 外部の道具(検索・計算・API)を自分で呼べない 記憶が無い LLM = 瓶の中の脳 呼び出しが終われば、直前の会話も忘れる 優秀な料理人が、厨房も道具も注文票も無しに、た だ立っている状態。知識はあるのに “何もできない ”。 一発勝負 途中で確かめたり、やり直して進める仕組みが無い 枠が有限 一度に読める文章量(文脈)に上限がある うさうさ研修工房 03
WHY ② 2025年は「エージェント」、 2026年は「ハーネス」 性能の壁を決めているのは“モデルの賢さ”ではなく、それを包む“足場”だと分かってきました。 “賢い脳”は揃った。足りないのは「神経系と外骨格」 88% 企業のAIエージェント案件のうち、本番投入に 至らないとされる割合(業界レポートによる推 計値) タスクが長く複雑になるほど、成功率はモデル本体ではなく、それを取り囲む実行基 盤(=ハーネス)に依存する。これを“ハーネス=インフラ問題”と呼ぶ研究も登場。 覚え方:モデル=エンジン/ハーネス=車体 どれだけ高性能なエンジン(モデル)でも、車体・ハンドル・ブレーキ(ハーネス)が無 ければ公道は走れません。Anthropicは社内でこれを「スキャフォールド(足場)」と 呼んでいます。 うさうさ研修工房 04
WHAT ハーネスとは何か ― 4段で理解する 定義 LLMを“動くエージェント”に変える、周辺ソフトウェア一式。 たとえ エンジン(モデル)に対する「車体・神経系・外骨格」。脳に手足と環境を与えるもの。 詳細 中身は6つ:実行ループ/ツール呼び出し/文脈管理/メモリ/ガードレール/トレーシング。 一言 “賢さ”はモデルが、“信頼性”はハーネスが決める。 うさうさ研修工房 05
WHAT / COMPONENTS ハーネスの 6つの構成要素 この6つが揃って初めて、LLMは「指示を受けて自分で動く」エージェントになります。 実行ループ モデルを繰り返し呼び、出力を解析し、結果を戻 し、止め時を判断する心臓部。 メモリ セッションを越えて記憶を保持。ファイル等に書 き出して橋渡し。 うさうさ研修工房 ツール呼び出し 検索・計算・API・MCPなどの“道具”を登録し、要 求を実行につなぐ。 ガードレール 危険な操作・暴走を防ぐ。権限・承認・上限を強 制する。 文脈管理 指示・履歴・参照資料を整え、枠が埋まれば要約 ・圧縮する。 トレーシング 何を考え・呼び・失敗したかを記録。改善と再現 の土台。 06
HOW / CORE LOOP 心臓部の動き ― 思考→行動→観察のループ ReActという考え方:推論(考える)と行動(道具を使う)を交互に行い、世界の反応を見て次を決める。 Reason → Act → Observe 思考 行動 観察 次に何をすべきか、理由とともに考える 道具を1つ呼ぶ(検索・計算・ APIなど) 返ってきた結果を読み、文脈に取り込む ↺ 完了の条件を満たすまで繰り返す。 たとえ:ラーメン店の見習いが「考える→作る→味見する」を繰り返して一杯を仕上げるのと同じ。 出典: Yao et al. “ReAct: Synergizing Reasoning and Acting in Language Models”, ICLR 2023 (arXiv:2210.03629) うさうさ研修工房 07
WHAT / EVALUATION もう一つのハーネス ―「測る」評価ハーネス “作る”ハーネスとは別に、複数モデルを同じ条件で公平に比べる仕組みも「ハーネス」と呼びます。 代表例 評価ハーネス( eval harness)とは 定義: 同じ入力・同じ採点ルールで、どのモデルも “同じ土俵”で測る枠 LM Evaluation Harness EleutherAI製。Hugging Face「Open LLM Leaderboard」の裏側 で、数百本の論文に使われる定番。 組み。 なぜ要る?: 採点方法が少し違うだけで点数は変わる。条件を固定し ないと論文間で結果を比較できない。 SWE-bench harness 実際のGitHub課題をエージェントに解かせ、テストが通るかで自動 採点する実行+評価基盤。 一言:「作るハーネス(実行)」と「測るハーネス(評価)」は別物だが、改善を回す両輪。 うさうさ研修工房 08
HOW / BUILD 最小ハーネスの作り方 ― 4ステップ 難しいフレームワークは不要。この4手を回すだけで、もう“エージェント”です。 1 道具と指示を渡す 「あなたは○○。使える道具はこ れ」と、役割・目標・ツール一覧を 最初に渡す。 うさうさ研修工房 2 → モデルを呼ぶ 現在の文脈を入力し、モデルに 「次の一手(思考+行動)」を出力 させる。 3 → 出力を解析し実行 “どの道具を・どう呼ぶか”を読み 取り、こちら側で実際に実行す る。 4 → 結果を戻し判断 結果を文脈に追記して再び② へ。完了条件を満たしたら停止す る。 09
HOW / CONTEXT 文脈エンジニアリング ― 有限の机を整える Anthropicは「プロンプトエンジニアリングの自然な進化」と位置づけています。 中身を選ぶ システム指示・履歴・参照文書・ツール定義を、必要十分に絞る。 圧縮する(compaction) たとえ:作業机は有限 枠が埋まる前に、古い履歴を要約してスペースを空ける。 机(文脈の枠)に載る書類の量には上限がある。 必要な資料だけ広げ、終わったものは片付ける。 これを仕組みで自動化するのが文脈管理。 編集する(context editing) ルールで不要な情報を機械的に削り、枠を制御下に置く。 文脈の劣化に注意 詰め込みすぎは逆効果( context rot)。多ければ良いではない。 出典: Anthropic「Effective context engineering for AI agents」(2025) うさうさ研修工房 10
HOW / LONG-HORIZON 長時間タスクのハーネス ― 記憶を引き継ぐ 数時間〜数日かかる仕事は、複数の“コンテキスト窓”をまたぐ。記憶ゼロの交代をどう橋渡しするか。 たとえ:シフト制の現場 前任者の記憶を一切持たない技術者が、交代で同じプロジェクトに入ってくる ― これがエージェントの実態。 初期化エージェント 機能を“失敗”から開始 外部メモリで橋渡し 最初の窓だけ専用プロンプトに。要件を細かく書 いた“仕様ファイル”を作らせ、後続の土台にす る。 各機能を最初は「未達」と記録し、テストが通って 初めて「完了」に。早すぎる完了宣言を防ぐ。 進捗・決定事項をファイルに書き出し、次の窓の 自分が読み直せるようにする。 出典: Anthropic「Effective harnesses for long-running agents」(2025) うさうさ研修工房 11
HOW / TOOLS ツール設計の作法 ― 道具は“説明書ごと ”渡す ツールの定義文もモデルの文脈に載る。だから「良い道具」と「良い説明」はセットです。 明確に定義する 1つの道具に1つの役割。名前・引数・戻り値を曖昧にしない。 組み合わせ可能に 小さな道具を多数。それらを繋いで多様な作業を組み立てられるように。 文脈を節約する 巨大な出力はページング・絞り込み・上限で抑える(例:Claude Codeは既定で 1応答25,000トークン上限)。 エラーは “直し方”を返す 失敗時は原因と次の一手を文章で返し、モデルが自力で立て直せるように。 出典: Anthropic「Writing effective tools for AI agents」(2025) うさうさ研修工房 12
PRACTICE / PITFALLS よくある失敗と、ハーネス側の対策 “モデルが悪い”で終わらせない。失敗の多くは足場の設計で防げます。 つまずき 起きる原因 ハーネス側の対策 途中で勝手に「完了」 終了条件があいまい 仕様ファイル+テストで“達成”を機械判定する 文脈があふれる 履歴を全部詰め込む 要約・圧縮・編集で枠を制御(context editing) 同じ失敗を繰り返す 学びが残らない 失敗を恒久ルールや新ツールに変換して蓄積 トークンを浪費 ツール出力が巨大 ページング・上限・絞り込みを既定にする 評価が再現しない 採点がばらばら 公開プロンプト+評価ハーネスで条件を固定 うさうさ研修工房 13
PRACTICE / ROADMAP 文系からの学習ロードマップ いきなり大きなフレームワークに行かない。小さく作って、少しずつ部品を足すのが近道です。 1 手でループを書く Python数十行で「思考 →行動→観察」を回す。仕組みを体感する。 2 道具を1つ足す 電卓や検索を 1つ接続。出力の解析とエラー処理を学ぶ。 3 文脈管理を入れる 履歴の要約・圧縮を追加。長い対話でも崩れないようにする。 4 評価ハーネスで測る 同じ課題で点数化し、改善が効いたかを “数字”で確認する。 補足: LangChain / LangGraph、MCP などは “④以降 ”で。まず素のループで原理を掴むと、道具の良し悪しが見えるようになります。 うさうさ研修工房 14
SUMMARY 今日の要点 1 LLM単体は“瓶の中の脳”。手・記憶・反復を与える足場がハーネス。 2 性能の壁を決めるのはモデルより足場―「2026年はハーネスの年」。 3 中身は6つ:ループ/ツール/文脈管理/メモリ/ガードレール/トレーシング。 4 心臓部は ReAct ループ:思考→行動→観察を完了まで繰り返す。 5 “作る”ハーネスと“測る”評価ハーネスを両輪で回し、失敗を設計で潰す。 面白きこともなき世を面白く うさうさ研修工房
APPENDIX 用語集 と 参考文献 ミニ用語集 参考文献(一次情報) ハーネス/足場 モデルを“動くエージェント”にする周辺ソフト一式 Yao et al. “ReAct: Synergizing Reasoning and Acting in Language Models.” ICLR 2023. arXiv:2210.03629 エージェント・ループ モデル呼び出し→解析→実行→再投入の反復 EleutherAI. “LM Evaluation Harness.” github.com/EleutherAI/lm-evaluation-harness ReAct 推論と行動を交互に行う基本パターン Anthropic. “Effective context engineering for AI agents.” 2025 文脈エンジニアリング 限られた文脈枠に何を載せるかを設計する技術 Anthropic. “Effective harnesses for long-running agents.” 2025 評価ハーネス 同条件で複数モデルを公平に採点する枠組み Anthropic. “Writing effective tools for AI agents.” 2025 MCP 外部の道具をモデルに繋ぐ接続規格 “Agent Harness for LLM Agents: A Survey.” Preprints.org, 2026(査読前プレ プリント) ※ Anthropic Engineering ブログおよび各論文を一次情報として参照。プレプリントは査読前のため取り扱いに注 意。 うさうさ研修工房 16