---
title: 査読論文で読むプロンプト・エージェント・ハーネス・PoC
tags:  #ai  
author: [smile_yukiko_it](https://www.docswell.com/user/smile_yukiko_it)
site: [Docswell](https://www.docswell.com/)
thumbnail: https://bcdn.docswell.com/page/5JGL5ZZ57L.jpg?width=480
description: 査読論文で読むプロンプト・エージェント・ハーネス・PoC by smile_yukiko_it
published: June 14, 26
canonical: https://www.docswell.com/s/smile_yukiko_it/58NWL9-2026-06-14-194313
---
# Page. 1

![Page Image](https://bcdn.docswell.com/page/5JGL5ZZ57L.jpg)

うさうさ研修工房 🐰 実務で使う文系エンジニア向け
査読論文で読む
プロンプト・エージェント・
ハーネス・PoC
⓪基本 → ①エージェント → ②プロンプト工学 → ③ハーネス → ④PoC
国内・海外の査読済み論文を、図解（左）＋要点（右）＋参考URLで。
「面白きこともなき世を面白く」


# Page. 2

![Page Image](https://bcdn.docswell.com/page/47QYZLLLEP.jpg)

本資料の地図 ＆ 出典の読み方
各テーマを「図解（左）→ 要点（右）→ 参考URL」で1枚ずつ。出典は査読の有無・国内/海外を明示。
#
テーマ
代表論文（短縮）
掲載先・年
区分
⓪
プロンプト設計の基本
Pre-train, Prompt, and Predict（サーベイ）
ACM Comp. Surv. 2023
海外・査読
①
AIエージェント
ReAct（考える＋行動）
ICLR 2023
海外・査読
②
プロンプトエンジニアリング
Chain-of-Thought（思考の連鎖）
NeurIPS 2022
海外・査読
③
ハーネスエンジニアリング
SWE-agent：Agent-Computer Interface
NeurIPS 2024
海外・査読
④
PoC（実証〜本番化）
Hidden Technical Debt in ML
NeurIPS 2015
海外・査読
＋
国内の査読研究
推論コーパス／LLM評価バイアス
自然言語処理 2025
国内・査読有
用語メモ 「ハーネスエンジニアリング」は実務での呼び名。査読研究では Agent-Computer Interface（エージェントと道具・環境の接続層）として、その設
計が性能を大きく左右することが示されています。


# Page. 3

![Page Image](https://bcdn.docswell.com/page/KE4W3DD5J1.jpg)

⓪ プロンプト設計の基本理解
査読付き
海外
Liu et al. 2023 “Pre-train, Prompt, and Predict” ・ ACM Computing Surveys
図解：タスクごとの学習 → プロンプトで1モデル多用途
論文の要点
従来：タスクごとに専用モデル（再学習）
• 「プロンプトベース学習」という新パラダイムを体系
化
分類器
要約器
QA器
• P(y|x)を学ぶのでなく、入力をテンプレートに整形
• 事前学習LMが穴を埋め、ゼロ/少数例で多タスク化
• プロンプト設計の用語・型を統一的に整理
プロンプト方式：1つの事前学習モデル＋プロンプト
プロンプト
分類/要約/QA
共通の
事前学習LM
各タスク
の出力
実務での意味 “プロンプトを設計する”という
発想の出発点。
参考URL：https://dl.acm.org/doi/10.1145/3560815 （DOI: 10.1145/3560815）


# Page. 4

![Page Image](https://bcdn.docswell.com/page/L71Y1ZZ2JG.jpg)

① AIエージェント：考えて行動する
査読付き
海外
Yao et al. 2023 “ReAct” ・ ICLR 2023
図解：考える→行動→観察 をくり返す（ReActループ）
論文の要点
• 推論(考える)と行動(ツール実行)を交互に行う枠組
み
Thought
考える
Action
行動(検索/ツール)
Observation
観察(結果)
• 途中の思考が計画の修正・例外処理を助ける
• 行動で外部知識(検索/環境)にアクセスし幻覚を抑
制
• 推論のみ・行動のみより高性能で説明可能
くり返し（必要な情報がそろうまで）
外部ツール・環境（検索/API）
参考URL：https://openreview.net/forum?id=WE_vluYUL-X （ICLR 2023 / arXiv:2210.03629）
実務での意味 “ツールを使うAI”設計の基本
パターン。


# Page. 5

![Page Image](https://bcdn.docswell.com/page/G7WG8992E2.jpg)

② プロンプトエンジニアリング：思考の連鎖
査読付き
海外
Wei et al. 2022 “Chain-of-Thought Prompting” ・ NeurIPS 2022
図解：途中の推論を書かせると正答率が上がる
論文の要点
通常プロンプト
• 途中の推論ステップを生成させる簡単な手法
問題
答え
• 少数のCoT例を示すだけ（追加学習は不要）
✗ 誤りやすい
• 算数・常識・記号推論で大幅に精度向上
• 効果は十分大きいモデルで顕著に現れる
Chain-of-Thought（思考の連鎖）
問題
①…→②…→③…
(途中の推論)
答え ✓
「順を追って考えよう」と例示するだけで、算数・常識・記号推論が改善（大規模モデルで顕著）。
実務での意味 難しい質問は“考える過程”を
促すと精度が上がる。
参考URL：https://proceedings.neurips.cc/paper/2022/hash/9d5609613524ecf4f15af0f7b31abca4-Abstract-Conference.html


# Page. 6

![Page Image](https://bcdn.docswell.com/page/4JZL8994E3.jpg)

③ ハーネスエンジニアリング：道具との接続層
査読付き
海外
Yang et al. 2024 “SWE-agent (ACI)” ・ NeurIPS 2024
図解：エージェントと道具の“接続層(ACI＝ハーネス)”が鍵
論文の要点
• エージェントは“新種の利用者”と捉え専用UIを設計
• ACI＝LLMと計算機の間の抽象化層（ハーネス）
LLM
エージェント
ACI / ハーネス
整形された操作・観測
コンピュータ
シェル/ファイル/テスト
• 検索・編集・テスト実行を扱いやすく整形
• 同じLLMでも接続層の設計で性能が大きく変化
効果（SWE-bench）： 生のシェル 3.8% → ACI設計で 12.5% （同じLLMでも“足場”で
激変）
参考URL：https://openreview.net/forum?id=mXpq6ut8J3 （NeurIPS 2024 / arXiv:2405.15793
）
実務での意味 モデル選びより“道具の渡し
方”が効く場面は多い。


# Page. 7

![Page Image](https://bcdn.docswell.com/page/YE6WPKKGEV.jpg)

④ PoC：実証から本番化でつまずく理由
査読付き
海外
Sculley et al. 2015 “Hidden Technical Debt in ML” ・ NeurIPS 2015
図解：MLコードはごく一部。周辺システムが大半
データ収集
データ検証
論文の要点
特徴抽出
設定管理
• “速く作れる”ML PoCは無料ではない、と警告
• 実システムでは保守コストが膨大になりがち
• 境界侵食・もつれ・隠れた依存などの負債要因
• ML本体は全体のごく一部に過ぎない
ML
コード
リソース管理
監視
サービング
分析ツール
PoCが本番で詰まる主因＝この“周辺の技術的負債”（データ依存・設定・監視…）。
実務での意味 PoC段階から本番化の負債を
見越して設計する。
参考URL：https://proceedings.neurips.cc/paper/2015/hash/86df7dcfd896fcaf2674f757a2463eba-Abstract.html


# Page. 8

![Page Image](https://bcdn.docswell.com/page/GE5MKPPXE4.jpg)

＋ 国内の査読研究から（自然言語処理 誌）
国内・査読有
国内＝日本の学会誌（言語処理学会）。いずれも一般論文（査読有）。
②に関連：LLMに“推論”を教える
③/評価に関連：LLM採点の偏り緩和
森下ら 2025 ・ 自然言語処理 32(2) 520–571
大井ら 2025 ・ 自然言語処理 32(2) 480–496
ルールで
論理推論を
自動生成
LLMで
学習
推論力
向上
同義でも
尤度が違う2文
LLM評価
が歪む
• LLMは知識は豊富だが新規の“推論”が苦手
• LLM-as-a-Judge には尤度バイアスがある
• ルールベースで人工の論理推論データを生成
• 強いバイアス事例をFew-shotに使い緩和
• それを学習させ推論能力を底上げ
• 人手評価との順位相関が向上
URL： doi.org/10.5715/jnlp.32.520
URL： doi.org/10.5715/jnlp.32.480
※ いずれもLLMの“評価”や“推論”という実務直結のテーマ。国内研究も一次情報で追えます。
Few-shot
で補正


# Page. 9

![Page Image](https://bcdn.docswell.com/page/9729W66QJR.jpg)

まとめ ＆ 出典一覧（査読済み）
流れ プロンプトで指示(⓪②)→エージェントが考えて行動(①)→ハーネスで道具を渡す(③)→PoCは本番化の負債に注意(④)。
⓪ Liu et al. 2023, Pre-train, Prompt, and Predict, ACM Comp. Surv. 55(9)
［海外・査読］
dl.acm.org/doi/10.1145/3560815
① Yao et al. 2023, ReAct, ICLR 2023
［海外・査読］
openreview.net/forum?id=WE_vluYUL-X
② Wei et al. 2022, Chain-of-Thought Prompting, NeurIPS 2022
［海外・査読］
proceedings.neurips.cc/paper/2022/hash/9d5609613524ecf4f15af0f7b31abca4-Abstract-Conference.html
③ Yang et al. 2024, SWE-agent (Agent-Computer Interface), NeurIPS 2024
［海外・査読］
openreview.net/forum?id=mXpq6ut8J3
④ Sculley et al. 2015, Hidden Technical Debt in ML, NeurIPS 2015
［海外・査読］
proceedings.neurips.cc/paper/2015/hash/86df7dcfd896fcaf2674f757a2463eba-Abstract.html
＋ 森下ら 2025 / 大井ら 2025, 自然言語処理 32(2) ［国内・査読有］
doi.org/10.5715/jnlp.32.520・ doi.org/10.5715/jnlp.32.480
※ 図解は各論文の要点を簡略化した模式図です（細部・数値は原文を参照）。「ハーネス」はACIに対応する実務用語。