ハーネスエンジニアリング入門　文系向け２　2026/06/11

>100 Views

June 11, 26

#ハーネスエンジニアリング #AIエージェント #LLM #プロンプトエンジニアリング #機械学習

スライド概要

smile_yukiko_it

@smile_yukiko_it

スライド一覧

何卒よろしくお願い申し上げます。一流のIT研修講師を目指し、日々研鑽を続けております。本資料は外部公開用としてご提供するものです。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

勉強会_ものづくりの6つの原理原則_理系向け6時間_2026_05_24_石黒友季子

ai駆動開発 ai

smile_yukiko_it 786

【公開】質問力研修_新入社員未経験向け

エンジニアコミュニケーション

smile_yukiko_it 405

ハーネスエンジニアリング入門　AIエージェント開発×プロンプト_実務編

smile_yukiko_it 203

ISO規格別_社内SE業務フロー資料

smile_yukiko_it 179

【新卒未経験学生向け】エンジニアコミュニケーションフレーズ集 💬エンジニアのためのコミュニケーションフレーズ集

smile_yukiko_it 171

LPIC3_303_Study

smile_yukiko_it 158

各ページのテキスト

HARNESS ENGINEERING ハーネスエンジニアリング入門 AIエージェントを“動かす”足場（ハーネス）の設計 ― 0から原理原則まで面白きこともなき世を面白くうさうさ研修工房

AGENDA 本日の地図 ― 4つの問い「なぜ必要か → 何なのか → どう作るか → 実務でどう使うか」の順に進みます。 WHY WHAT HOW PRACTICE なぜ必要か何なのかどう作るか実務で使う賢いLLMだけでは“動く”エージェントにならない理由ハーネス＝モデルを包む足場。6 つの構成要素で理解最小ループ・文脈管理・評価。手を動かす型失敗の型と対策、学習ロードマップうさうさ研修工房 02

WHY ① なぜLLM“単体”では足りないのか LLMは一度の呼び出しで、与えられた文章に続きを書くだけ。世界には触れません。手が無い外部の道具（検索・計算・API）を自分で呼べない記憶が無い LLM ＝瓶の中の脳呼び出しが終われば、直前の会話も忘れる優秀な料理人が、厨房も道具も注文票も無しに、ただ立っている状態。知識はあるのに “何もできない ”。一発勝負途中で確かめたり、やり直して進める仕組みが無い枠が有限一度に読める文章量（文脈）に上限があるうさうさ研修工房 03

WHY ② 2025年は「エージェント」、 2026年は「ハーネス」性能の壁を決めているのは“モデルの賢さ”ではなく、それを包む“足場”だと分かってきました。 “賢い脳”は揃った。足りないのは「神経系と外骨格」 88% 企業のAIエージェント案件のうち、本番投入に至らないとされる割合（業界レポートによる推計値）タスクが長く複雑になるほど、成功率はモデル本体ではなく、それを取り囲む実行基盤（＝ハーネス）に依存する。これを“ハーネス＝インフラ問題”と呼ぶ研究も登場。覚え方：モデル＝エンジン／ハーネス＝車体どれだけ高性能なエンジン（モデル）でも、車体・ハンドル・ブレーキ（ハーネス）が無ければ公道は走れません。Anthropicは社内でこれを「スキャフォールド（足場）」と呼んでいます。うさうさ研修工房 04

WHAT ハーネスとは何か ― 4段で理解する定義 LLMを“動くエージェント”に変える、周辺ソフトウェア一式。たとえエンジン（モデル）に対する「車体・神経系・外骨格」。脳に手足と環境を与えるもの。詳細中身は6つ：実行ループ／ツール呼び出し／文脈管理／メモリ／ガードレール／トレーシング。一言 “賢さ”はモデルが、“信頼性”はハーネスが決める。うさうさ研修工房 05

WHAT / COMPONENTS ハーネスの 6つの構成要素この6つが揃って初めて、LLMは「指示を受けて自分で動く」エージェントになります。実行ループモデルを繰り返し呼び、出力を解析し、結果を戻し、止め時を判断する心臓部。メモリセッションを越えて記憶を保持。ファイル等に書き出して橋渡し。うさうさ研修工房ツール呼び出し検索・計算・API・MCPなどの“道具”を登録し、要求を実行につなぐ。ガードレール危険な操作・暴走を防ぐ。権限・承認・上限を強制する。文脈管理指示・履歴・参照資料を整え、枠が埋まれば要約・圧縮する。トレーシング何を考え・呼び・失敗したかを記録。改善と再現の土台。 06

HOW / CORE LOOP 心臓部の動き ― 思考→行動→観察のループ ReActという考え方：推論（考える）と行動（道具を使う）を交互に行い、世界の反応を見て次を決める。 Reason → Act → Observe 思考行動観察次に何をすべきか、理由とともに考える道具を1つ呼ぶ（検索・計算・ APIなど）返ってきた結果を読み、文脈に取り込む ↺ 完了の条件を満たすまで繰り返す。たとえ：ラーメン店の見習いが「考える→作る→味見する」を繰り返して一杯を仕上げるのと同じ。出典： Yao et al. “ReAct: Synergizing Reasoning and Acting in Language Models”, ICLR 2023 (arXiv:2210.03629) うさうさ研修工房 07

WHAT / EVALUATION もう一つのハーネス ―「測る」評価ハーネス “作る”ハーネスとは別に、複数モデルを同じ条件で公平に比べる仕組みも「ハーネス」と呼びます。代表例評価ハーネス（ eval harness）とは定義：同じ入力・同じ採点ルールで、どのモデルも “同じ土俵”で測る枠 LM Evaluation Harness EleutherAI製。Hugging Face「Open LLM Leaderboard」の裏側で、数百本の論文に使われる定番。組み。なぜ要る？：採点方法が少し違うだけで点数は変わる。条件を固定しないと論文間で結果を比較できない。 SWE-bench harness 実際のGitHub課題をエージェントに解かせ、テストが通るかで自動採点する実行＋評価基盤。一言：「作るハーネス（実行）」と「測るハーネス（評価）」は別物だが、改善を回す両輪。うさうさ研修工房 08

HOW / BUILD 最小ハーネスの作り方 ― 4ステップ難しいフレームワークは不要。この4手を回すだけで、もう“エージェント”です。 1 道具と指示を渡す「あなたは○○。使える道具はこれ」と、役割・目標・ツール一覧を最初に渡す。うさうさ研修工房 2 → モデルを呼ぶ現在の文脈を入力し、モデルに「次の一手（思考＋行動）」を出力させる。 3 → 出力を解析し実行 “どの道具を・どう呼ぶか”を読み取り、こちら側で実際に実行する。 4 → 結果を戻し判断結果を文脈に追記して再び② へ。完了条件を満たしたら停止する。 09

10.

HOW / CONTEXT 文脈エンジニアリング ― 有限の机を整える Anthropicは「プロンプトエンジニアリングの自然な進化」と位置づけています。中身を選ぶシステム指示・履歴・参照文書・ツール定義を、必要十分に絞る。圧縮する（compaction）たとえ：作業机は有限枠が埋まる前に、古い履歴を要約してスペースを空ける。机（文脈の枠）に載る書類の量には上限がある。必要な資料だけ広げ、終わったものは片付ける。これを仕組みで自動化するのが文脈管理。編集する（context editing）ルールで不要な情報を機械的に削り、枠を制御下に置く。文脈の劣化に注意詰め込みすぎは逆効果（ context rot）。多ければ良いではない。出典： Anthropic「Eﬀective context engineering for AI agents」(2025) うさうさ研修工房 10

11.

HOW / LONG-HORIZON 長時間タスクのハーネス ― 記憶を引き継ぐ数時間〜数日かかる仕事は、複数の“コンテキスト窓”をまたぐ。記憶ゼロの交代をどう橋渡しするか。たとえ：シフト制の現場前任者の記憶を一切持たない技術者が、交代で同じプロジェクトに入ってくる ― これがエージェントの実態。初期化エージェント機能を“失敗”から開始外部メモリで橋渡し最初の窓だけ専用プロンプトに。要件を細かく書いた“仕様ファイル”を作らせ、後続の土台にする。各機能を最初は「未達」と記録し、テストが通って初めて「完了」に。早すぎる完了宣言を防ぐ。進捗・決定事項をファイルに書き出し、次の窓の自分が読み直せるようにする。出典： Anthropic「Eﬀective harnesses for long-running agents」(2025) うさうさ研修工房 11

12.

HOW / TOOLS ツール設計の作法 ― 道具は“説明書ごと ”渡すツールの定義文もモデルの文脈に載る。だから「良い道具」と「良い説明」はセットです。明確に定義する 1つの道具に1つの役割。名前・引数・戻り値を曖昧にしない。組み合わせ可能に小さな道具を多数。それらを繋いで多様な作業を組み立てられるように。文脈を節約する巨大な出力はページング・絞り込み・上限で抑える（例：Claude Codeは既定で 1応答25,000トークン上限）。エラーは “直し方”を返す失敗時は原因と次の一手を文章で返し、モデルが自力で立て直せるように。出典： Anthropic「Writing eﬀective tools for AI agents」(2025) うさうさ研修工房 12

13.

PRACTICE / PITFALLS よくある失敗と、ハーネス側の対策 “モデルが悪い”で終わらせない。失敗の多くは足場の設計で防げます。つまずき起きる原因ハーネス側の対策途中で勝手に「完了」終了条件があいまい仕様ファイル＋テストで“達成”を機械判定する文脈があふれる履歴を全部詰め込む要約・圧縮・編集で枠を制御（context editing）同じ失敗を繰り返す学びが残らない失敗を恒久ルールや新ツールに変換して蓄積トークンを浪費ツール出力が巨大ページング・上限・絞り込みを既定にする評価が再現しない採点がばらばら公開プロンプト＋評価ハーネスで条件を固定うさうさ研修工房 13

14.

PRACTICE / ROADMAP 文系からの学習ロードマップいきなり大きなフレームワークに行かない。小さく作って、少しずつ部品を足すのが近道です。 1 手でループを書く Python数十行で「思考 →行動→観察」を回す。仕組みを体感する。 2 道具を1つ足す電卓や検索を 1つ接続。出力の解析とエラー処理を学ぶ。 3 文脈管理を入れる履歴の要約・圧縮を追加。長い対話でも崩れないようにする。 4 評価ハーネスで測る同じ課題で点数化し、改善が効いたかを “数字”で確認する。補足： LangChain / LangGraph、MCP などは “④以降 ”で。まず素のループで原理を掴むと、道具の良し悪しが見えるようになります。うさうさ研修工房 14

15.

SUMMARY 今日の要点 1 LLM単体は“瓶の中の脳”。手・記憶・反復を与える足場がハーネス。 2 性能の壁を決めるのはモデルより足場―「2026年はハーネスの年」。 3 中身は6つ：ループ／ツール／文脈管理／メモリ／ガードレール／トレーシング。 4 心臓部は ReAct ループ：思考→行動→観察を完了まで繰り返す。 5 “作る”ハーネスと“測る”評価ハーネスを両輪で回し、失敗を設計で潰す。面白きこともなき世を面白くうさうさ研修工房

16.

APPENDIX 用語集と参考文献ミニ用語集参考文献（一次情報）ハーネス／足場モデルを“動くエージェント”にする周辺ソフト一式 Yao et al. “ReAct: Synergizing Reasoning and Acting in Language Models.” ICLR 2023. arXiv:2210.03629 エージェント・ループモデル呼び出し→解析→実行→再投入の反復 EleutherAI. “LM Evaluation Harness.” github.com/EleutherAI/lm-evaluation-harness ReAct 推論と行動を交互に行う基本パターン Anthropic. “Eﬀective context engineering for AI agents.” 2025 文脈エンジニアリング限られた文脈枠に何を載せるかを設計する技術 Anthropic. “Eﬀective harnesses for long-running agents.” 2025 評価ハーネス同条件で複数モデルを公平に採点する枠組み Anthropic. “Writing eﬀective tools for AI agents.” 2025 MCP 外部の道具をモデルに繋ぐ接続規格 “Agent Harness for LLM Agents: A Survey.” Preprints.org, 2026（査読前プレプリント） ※ Anthropic Engineering ブログおよび各論文を一次情報として参照。プレプリントは査読前のため取り扱いに注意。うさうさ研修工房 16

ハーネスエンジニアリング入門 文系向け２ 2026/06/11