---
title: ハーネスエンジニアリング入門　文系向け２　2026/06/11
tags:  #ハーネスエンジニアリング  
author: [smile_yukiko_it](https://www.docswell.com/user/smile_yukiko_it)
site: [Docswell](https://www.docswell.com/)
thumbnail: https://bcdn.docswell.com/page/5EGL5R62JL.jpg?width=480
description: ハーネスエンジニアリング入門　文系向け２　2026/06/11 by smile_yukiko_it
published: June 11, 26
canonical: https://www.docswell.com/s/smile_yukiko_it/ZJWQQG-2026-06-11-190621
---
# Page. 1

![Page Image](https://bcdn.docswell.com/page/5EGL5R62JL.jpg)

HARNESS ENGINEERING
ハーネスエンジニアリング入門
AIエージェントを“動かす”足場（ハーネス）の設計 ― 0から原理原則まで
面白きこともなき世を面白く
うさうさ研修工房


# Page. 2

![Page Image](https://bcdn.docswell.com/page/4JQYZV497P.jpg)

AGENDA
本日の地図 ― 4つの問い
「なぜ必要か → 何なのか → どう作るか → 実務でどう使うか」の順に進みます。
WHY
WHAT
HOW
PRACTICE
なぜ必要か
何なのか
どう作るか
実務で使う
賢いLLMだけでは“動く”エージェン
トにならない理由
ハーネス＝モデルを包む足場。6
つの構成要素で理解
最小ループ・文脈管理・評価。手を
動かす型
失敗の型と対策、学習ロードマップ
うさうさ研修工房
02


# Page. 3

![Page Image](https://bcdn.docswell.com/page/K74W3MLRE1.jpg)

WHY ①
なぜLLM“単体”では足りないのか
LLMは一度の呼び出しで、与えられた文章に続きを書くだけ。世界には触れません。
手が無い
外部の道具（検索・計算・API）を自分で呼べない
記憶が無い
LLM ＝ 瓶の中の脳
呼び出しが終われば、直前の会話も忘れる
優秀な料理人が、厨房も道具も注文票も無しに、た
だ立っている状態。知識はあるのに “何もできない ”。
一発勝負
途中で確かめたり、やり直して進める仕組みが無い
枠が有限
一度に読める文章量（文脈）に上限がある
うさうさ研修工房
03


# Page. 4

![Page Image](https://bcdn.docswell.com/page/LJ1Y18LVEG.jpg)

WHY ②
2025年は「エージェント」、 2026年は「ハーネス」
性能の壁を決めているのは“モデルの賢さ”ではなく、それを包む“足場”だと分かってきました。
“賢い脳”は揃った。足りないのは「神経系と外骨格」
88%
企業のAIエージェント案件のうち、本番投入に
至らないとされる割合（業界レポートによる推
計値）
タスクが長く複雑になるほど、成功率はモデル本体ではなく、それを取り囲む実行基
盤（＝ハーネス）に依存する。これを“ハーネス＝インフラ問題”と呼ぶ研究も登場。
覚え方：モデル＝エンジン／ハーネス＝車体
どれだけ高性能なエンジン（モデル）でも、車体・ハンドル・ブレーキ（ハーネス）が無
ければ公道は走れません。Anthropicは社内でこれを「スキャフォールド（足場）」と
呼んでいます。
うさうさ研修工房
04


# Page. 5

![Page Image](https://bcdn.docswell.com/page/GJWG8ZV372.jpg)

WHAT
ハーネスとは何か ― 4段で理解する
定義
LLMを“動くエージェント”に変える、周辺ソフトウェア一式。
たとえ
エンジン（モデル）に対する「車体・神経系・外骨格」。脳に手足と環境を与えるもの。
詳細
中身は6つ：実行ループ／ツール呼び出し／文脈管理／メモリ／ガードレール／トレーシング。
一言
“賢さ”はモデルが、“信頼性”はハーネスが決める。
うさうさ研修工房
05


# Page. 6

![Page Image](https://bcdn.docswell.com/page/4EZL814G73.jpg)

WHAT / COMPONENTS
ハーネスの 6つの構成要素
この6つが揃って初めて、LLMは「指示を受けて自分で動く」エージェントになります。
実行ループ
モデルを繰り返し呼び、出力を解析し、結果を戻
し、止め時を判断する心臓部。
メモリ
セッションを越えて記憶を保持。ファイル等に書
き出して橋渡し。
うさうさ研修工房
ツール呼び出し
検索・計算・API・MCPなどの“道具”を登録し、要
求を実行につなぐ。
ガードレール
危険な操作・暴走を防ぐ。権限・承認・上限を強
制する。
文脈管理
指示・履歴・参照資料を整え、枠が埋まれば要約
・圧縮する。
トレーシング
何を考え・呼び・失敗したかを記録。改善と再現
の土台。
06


# Page. 7

![Page Image](https://bcdn.docswell.com/page/Y76WPL3Q7V.jpg)

HOW / CORE LOOP
心臓部の動き ― 思考→行動→観察のループ
ReActという考え方：推論（考える）と行動（道具を使う）を交互に行い、世界の反応を見て次を決める。
Reason
→
Act
→
Observe
思考
行動
観察
次に何をすべきか、理由とともに考える
道具を1つ呼ぶ（検索・計算・ APIなど）
返ってきた結果を読み、文脈に取り込む
↺ 完了の条件を満たすまで繰り返す。
たとえ：ラーメン店の見習いが「考える→作る→味見する」を繰り返して一杯を仕上げるのと同じ。
出典： Yao et al. “ReAct: Synergizing Reasoning and Acting in Language Models”, ICLR 2023 (arXiv:2210.03629)
うさうさ研修工房
07


# Page. 8

![Page Image](https://bcdn.docswell.com/page/G75MK1L274.jpg)

WHAT / EVALUATION
もう一つのハーネス ―「測る」評価ハーネス
“作る”ハーネスとは別に、複数モデルを同じ条件で公平に比べる仕組みも「ハーネス」と呼びます。
代表例
評価ハーネス（ eval harness）とは
定義： 同じ入力・同じ採点ルールで、どのモデルも “同じ土俵”で測る枠
LM Evaluation Harness
EleutherAI製。Hugging Face「Open LLM Leaderboard」の裏側
で、数百本の論文に使われる定番。
組み。
なぜ要る？： 採点方法が少し違うだけで点数は変わる。条件を固定し
ないと論文間で結果を比較できない。
SWE-bench harness
実際のGitHub課題をエージェントに解かせ、テストが通るかで自動
採点する実行＋評価基盤。
一言：「作るハーネス（実行）」と「測るハーネス（評価）」は別物だが、改善を回す両輪。
うさうさ研修工房
08


# Page. 9

![Page Image](https://bcdn.docswell.com/page/9J29W1L1ER.jpg)

HOW / BUILD
最小ハーネスの作り方 ― 4ステップ
難しいフレームワークは不要。この4手を回すだけで、もう“エージェント”です。
1
道具と指示を渡す
「あなたは○○。使える道具はこ
れ」と、役割・目標・ツール一覧を
最初に渡す。
うさうさ研修工房
2
→
モデルを呼ぶ
現在の文脈を入力し、モデルに
「次の一手（思考＋行動）」を出力
させる。
3
→
出力を解析し実行
“どの道具を・どう呼ぶか”を読み
取り、こちら側で実際に実行す
る。
4
→
結果を戻し判断
結果を文脈に追記して再び②
へ。完了条件を満たしたら停止す
る。
09


# Page. 10

![Page Image](https://bcdn.docswell.com/page/DEY4LZQ4JM.jpg)

HOW / CONTEXT
文脈エンジニアリング ― 有限の机を整える
Anthropicは「プロンプトエンジニアリングの自然な進化」と位置づけています。
中身を選ぶ
システム指示・履歴・参照文書・ツール定義を、必要十分に絞る。
圧縮する（compaction）
たとえ：作業机は有限
枠が埋まる前に、古い履歴を要約してスペースを空ける。
机（文脈の枠）に載る書類の量には上限がある。
必要な資料だけ広げ、終わったものは片付ける。
これを仕組みで自動化するのが文脈管理。
編集する（context editing）
ルールで不要な情報を機械的に削り、枠を制御下に置く。
文脈の劣化に注意
詰め込みすぎは逆効果（ context rot）。多ければ良いではない。
出典： Anthropic「Eﬀective context engineering for AI agents」(2025)
うさうさ研修工房
10


# Page. 11

![Page Image](https://bcdn.docswell.com/page/VJNY43K678.jpg)

HOW / LONG-HORIZON
長時間タスクのハーネス ― 記憶を引き継ぐ
数時間〜数日かかる仕事は、複数の“コンテキスト窓”をまたぐ。記憶ゼロの交代をどう橋渡しするか。
たとえ：シフト制の現場
前任者の記憶を一切持たない技術者が、交代で同じプロジェクトに入ってくる ― これがエージェントの実態。
初期化エージェント
機能を“失敗”から開始
外部メモリで橋渡し
最初の窓だけ専用プロンプトに。要件を細かく書
いた“仕様ファイル”を作らせ、後続の土台にす
る。
各機能を最初は「未達」と記録し、テストが通って
初めて「完了」に。早すぎる完了宣言を防ぐ。
進捗・決定事項をファイルに書き出し、次の窓の
自分が読み直せるようにする。
出典： Anthropic「Eﬀective harnesses for long-running agents」(2025)
うさうさ研修工房
11


# Page. 12

![Page Image](https://bcdn.docswell.com/page/YE9PQ9VRJ3.jpg)

HOW / TOOLS
ツール設計の作法 ― 道具は“説明書ごと ”渡す
ツールの定義文もモデルの文脈に載る。だから「良い道具」と「良い説明」はセットです。
明確に定義する
1つの道具に1つの役割。名前・引数・戻り値を曖昧にしない。
組み合わせ可能に
小さな道具を多数。それらを繋いで多様な作業を組み立てられるように。
文脈を節約する
巨大な出力はページング・絞り込み・上限で抑える（例：Claude Codeは既定で
1応答25,000トークン上限）。
エラーは “直し方”を返す
失敗時は原因と次の一手を文章で返し、モデルが自力で立て直せるように。
出典： Anthropic「Writing eﬀective tools for AI agents」(2025)
うさうさ研修工房
12


# Page. 13

![Page Image](https://bcdn.docswell.com/page/GE8DG9PGED.jpg)

PRACTICE / PITFALLS
よくある失敗と、ハーネス側の対策
“モデルが悪い”で終わらせない。失敗の多くは足場の設計で防げます。
つまずき
起きる原因
ハーネス側の対策
途中で勝手に「完了」
終了条件があいまい
仕様ファイル＋テストで“達成”を機械判定する
文脈があふれる
履歴を全部詰め込む
要約・圧縮・編集で枠を制御（context editing）
同じ失敗を繰り返す
学びが残らない
失敗を恒久ルールや新ツールに変換して蓄積
トークンを浪費
ツール出力が巨大
ページング・上限・絞り込みを既定にする
評価が再現しない
採点がばらばら
公開プロンプト＋評価ハーネスで条件を固定
うさうさ研修工房
13


# Page. 14

![Page Image](https://bcdn.docswell.com/page/LELMGW1X7R.jpg)

PRACTICE / ROADMAP
文系からの学習ロードマップ
いきなり大きなフレームワークに行かない。小さく作って、少しずつ部品を足すのが近道です。
1
手でループを書く
Python数十行で「思考 →行動→観察」を回す。仕組みを体感する。
2
道具を1つ足す
電卓や検索を 1つ接続。出力の解析とエラー処理を学ぶ。
3
文脈管理を入れる
履歴の要約・圧縮を追加。長い対話でも崩れないようにする。
4
評価ハーネスで測る
同じ課題で点数化し、改善が効いたかを “数字”で確認する。
補足： LangChain / LangGraph、MCP などは “④以降 ”で。まず素のループで原理を掴むと、道具の良し悪しが見えるようになります。
うさうさ研修工房
14


# Page. 15

![Page Image](https://bcdn.docswell.com/page/4JMYQ9W3JW.jpg)

SUMMARY
今日の要点
1
LLM単体は“瓶の中の脳”。手・記憶・反復を与える足場がハーネス。
2
性能の壁を決めるのはモデルより足場―「2026年はハーネスの年」。
3
中身は6つ：ループ／ツール／文脈管理／メモリ／ガードレール／トレーシング。
4
心臓部は ReAct ループ：思考→行動→観察を完了まで繰り返す。
5
“作る”ハーネスと“測る”評価ハーネスを両輪で回し、失敗を設計で潰す。
面白きこともなき世を面白く
うさうさ研修工房


# Page. 16

![Page Image](https://bcdn.docswell.com/page/PJR98GYR79.jpg)

APPENDIX
用語集 と 参考文献
ミニ用語集
参考文献（一次情報）
ハーネス／足場
モデルを“動くエージェント”にする周辺ソフト一式
Yao et al. “ReAct: Synergizing Reasoning and Acting in Language Models.”
ICLR 2023. arXiv:2210.03629
エージェント・ループ
モデル呼び出し→解析→実行→再投入の反復
EleutherAI. “LM Evaluation Harness.”
github.com/EleutherAI/lm-evaluation-harness
ReAct
推論と行動を交互に行う基本パターン
Anthropic. “Eﬀective context engineering for AI agents.” 2025
文脈エンジニアリング
限られた文脈枠に何を載せるかを設計する技術
Anthropic. “Eﬀective harnesses for long-running agents.” 2025
評価ハーネス
同条件で複数モデルを公平に採点する枠組み
Anthropic. “Writing eﬀective tools for AI agents.” 2025
MCP
外部の道具をモデルに繋ぐ接続規格
“Agent Harness for LLM Agents: A Survey.” Preprints.org, 2026（査読前プレ
プリント）
※ Anthropic Engineering ブログおよび各論文を一次情報として参照。プレプリントは査読前のため取り扱いに注
意。
うさうさ研修工房
16


