---
title: うさうさ研修工房  ／  AI設計書レビュー PoC ・ 勉強会資料実践編：精度向上のために できること【完全版】
tags:  #poc  
author: [smile_yukiko_it](https://www.docswell.com/user/smile_yukiko_it)
site: [Docswell](https://www.docswell.com/)
thumbnail: https://bcdn.docswell.com/page/P7R9K2Z6E9.jpg?width=480
description: 2026/06/22
published: June 22, 26
canonical: https://www.docswell.com/s/smile_yukiko_it/KJWWGX-2026-06-22-153236
---
# Page. 1

![Page Image](https://bcdn.docswell.com/page/P7R9K2Z6E9.jpg)

うさうさ研修工房 ／ AI設計書レビュー PoC ・ 勉強会資料
実践編：精度向上のために
できること【完全版】
現時点で分かっているベストプラクティスを、検索・生成・評価・データの観点で体系化
検索
生成
観点別
評価駆動
データ
ハルシ対策
各レバーに「効く理由／やり方」を併記。根拠は国内海外の査読済み論文（URL付き）。まず測る→検索と根拠→最後にモデル、が基本方針。


# Page. 2

![Page Image](https://bcdn.docswell.com/page/PJXQLD9D7X.jpg)

ACCURACY MAP
精度はどこで決まるか（4つのレバー）
データ・前処理
クリーニング
用語辞書・版管理
→
検索 (Retrieval)
ハイブリッド/リランク
クエリ書換・圧縮
→
生成 (Generation)
典拠必須・CoT/SC
構造化・低温
→
評価・運用
RAGAS/Judge
回帰テスト
▲
評価結果でデータ・検索・生成を改善（継続的フィードバックループ）
原則： 精度は1か所では決まらない。「測れる仕組み（評価）」を最初に作り、検索の質と根拠（典拠）で底上げし、モデル変更は最
後。各段の小さな改善を積む。
02


# Page. 3

![Page Image](https://bcdn.docswell.com/page/3JK9LXPDJD.jpg)

LEVER 1 ・ RETRIEVAL
① 検索（Retrieval）の精度を上げる
チャンク設計
見出し単位500〜1000字＋10〜15%重複。親子チャンクで広い文脈も保
持。
リランキング
cross-encoderで上位候補を並べ替え。本当に効く根拠を先頭へ。
メタデータフィルタ
章・文書種別・版で絞り込み、ノイズと混線を減らす。
ハイブリッド検索
BM25＋ベクトルを併用。型番・固有名詞の取りこぼしを防ぐ。
クエリ書換 / HyDE
質問を検索向けに変換、または仮想回答を生成して命中率を上げる。
コンテキスト圧縮
関連箇所だけ抽出して渡す。Lost in the Middleを回避。
根拠（査読済み）： DPR / Karpukhin 2020(EMNLP) / HyDE / Gao 2023(ACL) / Query Rewriting / Ma 2023(EMNLP)
/ Lost in the Middle / Liu 2024(TACL)
03


# Page. 4

![Page Image](https://bcdn.docswell.com/page/LE3W35XPE5.jpg)

LEVER 2 ・ GENERATION
② 生成（Generation）の精度を上げる
プロンプト設計
few-shot 例示
役割・制約・出力形式を明示し、曖昧な指示を排除する。
CoT＋Self-Consistency
段階推論で飛躍を防ぎ、重要観点は多数決で安定化。
グラウンディング
典拠を必須化。根拠を引けない指摘は出さない設計に。
根拠（査読済み）： Chain-of-Thought / Wei 2022(NeurIPS)
良い所見／悪い所見を対で提示し、基準を例で伝える。
構造化出力（enum）
観点・重大度をenum固定し、表記ゆれを根絶する。
temperature低め
レビューは再現性重視。創造性より一貫性を優先。
/ Self-Consistency / Wang 2023(ICLR)
04


# Page. 5

![Page Image](https://bcdn.docswell.com/page/8EDK4D237G.jpg)

LEVER 3 ・ REVIEW ASPECTS
③ 観点別レビューの精度を上げる
1観点1プロンプト
ルーブリック
観点を混ぜない。指示が単純化し、精度と再現性が上がる。
事実と所感を分離
根拠（章・行）必須
出力を二段に分け、レビュー記録の信頼性を高める。
根拠（査読済み）： 要求QA / Lubos 2024(IEEE RE)
合否基準・重大度の付け方を明文化し、判定の属人化を防ぐ。
/ LLM4SE / Hou 2024(ACM TOSEM)
すべての指摘に出典を付け、検証可能な状態にする。
05


# Page. 6

![Page Image](https://bcdn.docswell.com/page/V7PKMX1PJ8.jpg)

LEVER 4 ・ EVAL-DRIVEN
④ 評価駆動で改善を回す（最重要）
ゴールデンセット
代表設計書＋期待所見を用意。小さく作って回し始める。
LLM-as-a-Judge
妥当性を自動採点。審査と対象を分離しバイアス対策。
エラー分析の型
「検索失敗」か「生成失敗」かを切り分けて対策を選ぶ。
根拠（査読済み）： RAGAS / Es 2024(EACL) / LLM-as-a-Judge / Zheng 2023(NeurIPS)
RAGAS 指標
Faithfulness／Relevanceで根拠忠実性を定量化する。
回帰テスト（CI）
プロンプト変更時の品質劣化を自動で検知し、止める。
閾値ゲート化
Faithfulness&lt;閾値はマージ不可、のように門番にする。
06


# Page. 7

![Page Image](https://bcdn.docswell.com/page/2JVV9LYVJQ.jpg)

LEVER 5 ・ DATA
⑤ データ・前処理の質を上げる
クリーニング
重複・ヘッダ/フッタ・装飾ノイズを除去し、本文を整える。
用語辞書・同義語
固有名詞の表記を統一。抽出と突合の精度を底上げ。
版管理
最新版だけを索引。古い版の混入による誤検出を防ぐ。
※ 前処理は地味だが効果が大きい。検索も生成も「入れたデータの質」を超えられない。
表・図の構造保持
表はMarkdown/HTML化し、崩さずに索引へ載せる。
メタデータ付与
章番号・文書種別・版を付け、検索の絞り込みを可能に。
標準の整備
レビュー基準・チェックリストを引用可能な形で知識ベース化。
07


# Page. 8

![Page Image](https://bcdn.docswell.com/page/5EGLZX91JL.jpg)

LEVER 6 ・ HALLUCINATION &amp; LOOP
⑥ ハルシネーション対策とフィードバックループ
根拠なし指摘を抑制
システムプロンプトで強制し、誤検知を構造的に減らす。
引用範囲を保持
どこを根拠にしたかを追跡可能にし、検証を容易に。
Self-RAG的 自己検証
必要時のみ検索＋自己批評で、過剰生成と幻覚を抑える。
根拠（査読済み）： Self-RAG / Asai 2024(ICLR Oral) / RAGAS / Es 2024(EACL)
Faithfulnessゲート
閾値未達は差戻し。事実性を品質の門番にする。
人手評価→データ拡充
誤りを集めてゴールデンセット／few-shotを更新する。
継続改善の運用
週次でエラー分析→改善→再評価。小さく速く回す。
08


# Page. 9

![Page Image](https://bcdn.docswell.com/page/4JQYL8WN7P.jpg)

PRIORITY / ROI
優先順位：まず効く順（高ROI）
1
評価セットを作る
測れないと改善できない。すべての起点。
効果 大
コスト 小
2
検索の質を上げる
ハイブリッド＋リランクで根拠の的中率を改善。
効果 大
コスト 中
3
グラウンディング制約
効果 大
コスト 小
4
few-shot・プロンプト改善
効果 中
コスト 小
5
チャンク・前処理の再設計 データの質を底上げ。腰を据えて取り組む。
効果 中
コスト 中
6
モデル変更・長文脈の検討 最後の手段。上記を尽くしてから費用対効果を判断。
効果 中〜大
コスト 大
典拠必須・根拠なき指摘を出さない。誤検知を即削減。
良/悪の例で基準を伝える。低コストで効く。
合言葉：まず①評価。次に②検索と③根拠。モデル変更は最後。
09


# Page. 10

![Page Image](https://bcdn.docswell.com/page/K74WD2K3E1.jpg)

ANTI-PATTERNS
やりがちな失敗（アンチパターン）と対策
✗ 評価なしでプロンプトを延々いじる
→ ✓ まずゴールデンセットで測る。勘でなく数値で改善。
✗ top-k をただ増やす
→ ✓ リランク＋圧縮で精選（Lost in the Middle対策）。
✗ temperatureを上げて“賢く”する
→ ✓ 低温＋構造化で再現性を確保。レビューは一貫性。
✗ 根拠なしで指摘させる
→ ✓ 典拠必須。根拠を引けない指摘は出さない。
✗ 1プロンプトに全観点を詰める
→ ✓ 1観点1プロンプトに分割し精度を上げる。
✗ チャンクを大きく/小さくしすぎ
→ ✓ 見出し単位＋親子チャンクで文脈と精度を両立。
10


# Page. 11

![Page Image](https://bcdn.docswell.com/page/LJ1YZMXZEG.jpg)

CHECKLIST
精度向上チェックリスト（実務用）
検索
☐ ハイブリッド検索（BM25＋ベクトル）を入れた
☐ top候補をリランクしている
☐ クエリ書換/HyDEを検討した
☐ 引用範囲（章・行）を保持している
評価
☐ ゴールデンセットがある
☐ RAGAS/Judgeで採点している
☐ CIで回帰テストしている
☐ 検索失敗/生成失敗を切り分けている
生成
☐ 典拠必須をプロンプトで強制した
☐ 観点を1プロンプト1観点に分けた
☐ 出力をenum付きスキーマで構造化した
☐ temperatureを低めに設定した
データ
☐ 表・図を崩さず索引化した
☐ 用語辞書で表記を統一した
☐ 章/種別/版のメタデータを付けた
☐ 最新版のみ索引している
11


# Page. 12

![Page Image](https://bcdn.docswell.com/page/GJWG93N672.jpg)

REFERENCES
参考文献（査読済み・URL付き）
1
Lewis ほか 2020
RAG / NeurIPS
arxiv.org/abs/2005.11401
2
Karpukhin ほか 2020
3
Gao ほか 2023
HyDE / ACL aclanthology.org/2023.acl-long.99
4
Ma ほか 2023
Query Rewriting / EMNLP
aclanthology.org/2023.emnlp-main.322
5
Liu ほか 2024
Lost in the Middle / TACL
aclanthology.org/2024.tacl-1.9
6
Wei ほか 2022
Chain-of-Thought / NeurIPS
7
Wang ほか 2023
Self-Consistency / ICLR
8
Asai ほか 2024
9
Zheng ほか 2023
10
Es ほか 2024
11
Hou ほか 2024
DPR（密検索）/ EMNLP
Self-RAG / ICLR (Oral)
aclanthology.org/2020.emnlp-main.550
arxiv.org/abs/2201.11903
arxiv.org/abs/2203.11171
openreview.net/forum?id=hSyW5go0v8
LLM-as-a-Judge / NeurIPS arxiv.org/abs/2306.05685
RAGAS / EACL
aclanthology.org/2024.eacl-demo.16
LLM4SE 体系的レビュー / ACM TOSEM
doi.org/10.1145/3695988
検索精度＝DPR/HyDE/Query Rewriting/Lost in the Middle、推論＝CoT/SC、評価＝RAGAS/Judge、適応的検索＝Self-RAG。


# Page. 13

![Page Image](https://bcdn.docswell.com/page/4EZL9V3R73.jpg)

TAKEAWAYS
精度向上のまとめ
まず「測る」を作る ゴールデンセット＋RAGAS/Judge。改善は評価から始まる。
検索の質で底上げ ハイブリッド＋リランク＋圧縮で根拠の的中率を上げる。
根拠で誤検知を断つ 典拠必須・根拠なき指摘は出さない。Faithfulnessで監視。
構造化で安定運用 観点・重大度をenum化し、集計とゲートを破綻させない。
小さく速く回す 週次でエラー分析→改善→再評価。モデル変更は最後。
結論： 精度は仕組みで上げる。測れる評価を起点に、検索と根拠で底上げし、データと運用で支える。