うさうさ研修工房／ AI設計書レビュー PoC ・勉強会資料実践編：精度向上のためにできること【完全版】

>100 Views

June 22, 26

#poc

スライド概要

2026/06/22

smile_yukiko_it

@smile_yukiko_it

スライド一覧

何卒よろしくお願い申し上げます。一流のIT研修講師を目指し、日々研鑽を続けております。本資料は外部公開用としてご提供するものです。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

勉強会_ものづくりの6つの原理原則_理系向け6時間_2026_05_24_石黒友季子

ai駆動開発 ai

smile_yukiko_it 780

【公開】質問力研修_新入社員未経験向け

エンジニアコミュニケーション

smile_yukiko_it 402

ISO規格別_社内SE業務フロー資料

smile_yukiko_it 176

【新卒未経験学生向け】エンジニアコミュニケーションフレーズ集 💬エンジニアのためのコミュニケーションフレーズ集

smile_yukiko_it 155

LPIC3_303_Study

smile_yukiko_it 152

No.2【図解】メンター声掛けフレーズ集_18シーン

smile_yukiko_it 133

各ページのテキスト

うさうさ研修工房／ AI設計書レビュー PoC ・勉強会資料実践編：精度向上のためにできること【完全版】現時点で分かっているベストプラクティスを、検索・生成・評価・データの観点で体系化検索生成観点別評価駆動データハルシ対策各レバーに「効く理由／やり方」を併記。根拠は国内海外の査読済み論文（URL付き）。まず測る→検索と根拠→最後にモデル、が基本方針。

ACCURACY MAP 精度はどこで決まるか（4つのレバー）データ・前処理クリーニング用語辞書・版管理 → 検索 (Retrieval) ハイブリッド/リランククエリ書換・圧縮 → 生成 (Generation) 典拠必須・CoT/SC 構造化・低温 → 評価・運用 RAGAS/Judge 回帰テスト ▲ 評価結果でデータ・検索・生成を改善（継続的フィードバックループ）原則：精度は1か所では決まらない。「測れる仕組み（評価）」を最初に作り、検索の質と根拠（典拠）で底上げし、モデル変更は最後。各段の小さな改善を積む。 02

LEVER 1 ・ RETRIEVAL ① 検索（Retrieval）の精度を上げるチャンク設計見出し単位500〜1000字＋10〜15%重複。親子チャンクで広い文脈も保持。リランキング cross-encoderで上位候補を並べ替え。本当に効く根拠を先頭へ。メタデータフィルタ章・文書種別・版で絞り込み、ノイズと混線を減らす。ハイブリッド検索 BM25＋ベクトルを併用。型番・固有名詞の取りこぼしを防ぐ。クエリ書換 / HyDE 質問を検索向けに変換、または仮想回答を生成して命中率を上げる。コンテキスト圧縮関連箇所だけ抽出して渡す。Lost in the Middleを回避。根拠（査読済み）： DPR / Karpukhin 2020(EMNLP) / HyDE / Gao 2023(ACL) / Query Rewriting / Ma 2023(EMNLP) / Lost in the Middle / Liu 2024(TACL) 03

LEVER 2 ・ GENERATION ② 生成（Generation）の精度を上げるプロンプト設計 few-shot 例示役割・制約・出力形式を明示し、曖昧な指示を排除する。 CoT＋Self-Consistency 段階推論で飛躍を防ぎ、重要観点は多数決で安定化。グラウンディング典拠を必須化。根拠を引けない指摘は出さない設計に。根拠（査読済み）： Chain-of-Thought / Wei 2022(NeurIPS) 良い所見／悪い所見を対で提示し、基準を例で伝える。構造化出力（enum）観点・重大度をenum固定し、表記ゆれを根絶する。 temperature低めレビューは再現性重視。創造性より一貫性を優先。 / Self-Consistency / Wang 2023(ICLR) 04

LEVER 3 ・ REVIEW ASPECTS ③ 観点別レビューの精度を上げる 1観点1プロンプトルーブリック観点を混ぜない。指示が単純化し、精度と再現性が上がる。事実と所感を分離根拠（章・行）必須出力を二段に分け、レビュー記録の信頼性を高める。根拠（査読済み）：要求QA / Lubos 2024(IEEE RE) 合否基準・重大度の付け方を明文化し、判定の属人化を防ぐ。 / LLM4SE / Hou 2024(ACM TOSEM) すべての指摘に出典を付け、検証可能な状態にする。 05

LEVER 4 ・ EVAL-DRIVEN ④ 評価駆動で改善を回す（最重要）ゴールデンセット代表設計書＋期待所見を用意。小さく作って回し始める。 LLM-as-a-Judge 妥当性を自動採点。審査と対象を分離しバイアス対策。エラー分析の型「検索失敗」か「生成失敗」かを切り分けて対策を選ぶ。根拠（査読済み）： RAGAS / Es 2024(EACL) / LLM-as-a-Judge / Zheng 2023(NeurIPS) RAGAS 指標 Faithfulness／Relevanceで根拠忠実性を定量化する。回帰テスト（CI）プロンプト変更時の品質劣化を自動で検知し、止める。閾値ゲート化 Faithfulness<閾値はマージ不可、のように門番にする。 06

LEVER 5 ・ DATA ⑤ データ・前処理の質を上げるクリーニング重複・ヘッダ/フッタ・装飾ノイズを除去し、本文を整える。用語辞書・同義語固有名詞の表記を統一。抽出と突合の精度を底上げ。版管理最新版だけを索引。古い版の混入による誤検出を防ぐ。 ※ 前処理は地味だが効果が大きい。検索も生成も「入れたデータの質」を超えられない。表・図の構造保持表はMarkdown/HTML化し、崩さずに索引へ載せる。メタデータ付与章番号・文書種別・版を付け、検索の絞り込みを可能に。標準の整備レビュー基準・チェックリストを引用可能な形で知識ベース化。 07

LEVER 6 ・ HALLUCINATION & LOOP ⑥ ハルシネーション対策とフィードバックループ根拠なし指摘を抑制システムプロンプトで強制し、誤検知を構造的に減らす。引用範囲を保持どこを根拠にしたかを追跡可能にし、検証を容易に。 Self-RAG的自己検証必要時のみ検索＋自己批評で、過剰生成と幻覚を抑える。根拠（査読済み）： Self-RAG / Asai 2024(ICLR Oral) / RAGAS / Es 2024(EACL) Faithfulnessゲート閾値未達は差戻し。事実性を品質の門番にする。人手評価→データ拡充誤りを集めてゴールデンセット／few-shotを更新する。継続改善の運用週次でエラー分析→改善→再評価。小さく速く回す。 08

PRIORITY / ROI 優先順位：まず効く順（高ROI） 1 評価セットを作る測れないと改善できない。すべての起点。効果大コスト小 2 検索の質を上げるハイブリッド＋リランクで根拠の的中率を改善。効果大コスト中 3 グラウンディング制約効果大コスト小 4 few-shot・プロンプト改善効果中コスト小 5 チャンク・前処理の再設計データの質を底上げ。腰を据えて取り組む。効果中コスト中 6 モデル変更・長文脈の検討最後の手段。上記を尽くしてから費用対効果を判断。効果中〜大コスト大典拠必須・根拠なき指摘を出さない。誤検知を即削減。良/悪の例で基準を伝える。低コストで効く。合言葉：まず①評価。次に②検索と③根拠。モデル変更は最後。 09

10.

ANTI-PATTERNS やりがちな失敗（アンチパターン）と対策 ✗ 評価なしでプロンプトを延々いじる → ✓ まずゴールデンセットで測る。勘でなく数値で改善。 ✗ top-k をただ増やす → ✓ リランク＋圧縮で精選（Lost in the Middle対策）。 ✗ temperatureを上げて“賢く”する → ✓ 低温＋構造化で再現性を確保。レビューは一貫性。 ✗ 根拠なしで指摘させる → ✓ 典拠必須。根拠を引けない指摘は出さない。 ✗ 1プロンプトに全観点を詰める → ✓ 1観点1プロンプトに分割し精度を上げる。 ✗ チャンクを大きく/小さくしすぎ → ✓ 見出し単位＋親子チャンクで文脈と精度を両立。 10

11.

CHECKLIST 精度向上チェックリスト（実務用）検索 ☐ ハイブリッド検索（BM25＋ベクトル）を入れた ☐ top候補をリランクしている ☐ クエリ書換/HyDEを検討した ☐ 引用範囲（章・行）を保持している評価 ☐ ゴールデンセットがある ☐ RAGAS/Judgeで採点している ☐ CIで回帰テストしている ☐ 検索失敗/生成失敗を切り分けている生成 ☐ 典拠必須をプロンプトで強制した ☐ 観点を1プロンプト1観点に分けた ☐ 出力をenum付きスキーマで構造化した ☐ temperatureを低めに設定したデータ ☐ 表・図を崩さず索引化した ☐ 用語辞書で表記を統一した ☐ 章/種別/版のメタデータを付けた ☐ 最新版のみ索引している 11

12.

REFERENCES 参考文献（査読済み・URL付き） 1 Lewis ほか 2020 RAG / NeurIPS arxiv.org/abs/2005.11401 2 Karpukhin ほか 2020 3 Gao ほか 2023 HyDE / ACL aclanthology.org/2023.acl-long.99 4 Ma ほか 2023 Query Rewriting / EMNLP aclanthology.org/2023.emnlp-main.322 5 Liu ほか 2024 Lost in the Middle / TACL aclanthology.org/2024.tacl-1.9 6 Wei ほか 2022 Chain-of-Thought / NeurIPS 7 Wang ほか 2023 Self-Consistency / ICLR 8 Asai ほか 2024 9 Zheng ほか 2023 10 Es ほか 2024 11 Hou ほか 2024 DPR（密検索）/ EMNLP Self-RAG / ICLR (Oral) aclanthology.org/2020.emnlp-main.550 arxiv.org/abs/2201.11903 arxiv.org/abs/2203.11171 openreview.net/forum?id=hSyW5go0v8 LLM-as-a-Judge / NeurIPS arxiv.org/abs/2306.05685 RAGAS / EACL aclanthology.org/2024.eacl-demo.16 LLM4SE 体系的レビュー / ACM TOSEM doi.org/10.1145/3695988 検索精度＝DPR/HyDE/Query Rewriting/Lost in the Middle、推論＝CoT/SC、評価＝RAGAS/Judge、適応的検索＝Self-RAG。

13.

TAKEAWAYS 精度向上のまとめまず「測る」を作るゴールデンセット＋RAGAS/Judge。改善は評価から始まる。検索の質で底上げハイブリッド＋リランク＋圧縮で根拠の的中率を上げる。根拠で誤検知を断つ典拠必須・根拠なき指摘は出さない。Faithfulnessで監視。構造化で安定運用観点・重大度をenum化し、集計とゲートを破綻させない。小さく速く回す週次でエラー分析→改善→再評価。モデル変更は最後。結論：精度は仕組みで上げる。測れる評価を起点に、検索と根拠で底上げし、データと運用で支える。

うさうさ研修工房 ／ AI設計書レビュー PoC ・ 勉強会資料実践編：精度向上のために できること【完全版】