うさうさ研修工房 / AI設計書レビュー PoC ・ 勉強会資料実践編:精度向上のために できること【完全版】

>100 Views

June 22, 26

スライド概要

2026/06/22

profile-image

何卒よろしくお願い申し上げます。 一流のIT研修講師を目指し、日々研鑽を続けております。 本資料は外部公開用としてご提供するものです。

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

うさうさ研修工房 / AI設計書レビュー PoC ・ 勉強会資料 実践編:精度向上のために できること【完全版】 現時点で分かっているベストプラクティスを、検索・生成・評価・データの観点で体系化 検索 生成 観点別 評価駆動 データ ハルシ対策 各レバーに「効く理由/やり方」を併記。根拠は国内海外の査読済み論文(URL付き)。まず測る→検索と根拠→最後にモデル、が基本方針。

2.

ACCURACY MAP 精度はどこで決まるか(4つのレバー) データ・前処理 クリーニング 用語辞書・版管理 → 検索 (Retrieval) ハイブリッド/リランク クエリ書換・圧縮 → 生成 (Generation) 典拠必須・CoT/SC 構造化・低温 → 評価・運用 RAGAS/Judge 回帰テスト ▲ 評価結果でデータ・検索・生成を改善(継続的フィードバックループ) 原則: 精度は1か所では決まらない。「測れる仕組み(評価)」を最初に作り、検索の質と根拠(典拠)で底上げし、モデル変更は最 後。各段の小さな改善を積む。 02

3.

LEVER 1 ・ RETRIEVAL ① 検索(Retrieval)の精度を上げる チャンク設計 見出し単位500〜1000字+10〜15%重複。親子チャンクで広い文脈も保 持。 リランキング cross-encoderで上位候補を並べ替え。本当に効く根拠を先頭へ。 メタデータフィルタ 章・文書種別・版で絞り込み、ノイズと混線を減らす。 ハイブリッド検索 BM25+ベクトルを併用。型番・固有名詞の取りこぼしを防ぐ。 クエリ書換 / HyDE 質問を検索向けに変換、または仮想回答を生成して命中率を上げる。 コンテキスト圧縮 関連箇所だけ抽出して渡す。Lost in the Middleを回避。 根拠(査読済み): DPR / Karpukhin 2020(EMNLP) / HyDE / Gao 2023(ACL) / Query Rewriting / Ma 2023(EMNLP) / Lost in the Middle / Liu 2024(TACL) 03

4.

LEVER 2 ・ GENERATION ② 生成(Generation)の精度を上げる プロンプト設計 few-shot 例示 役割・制約・出力形式を明示し、曖昧な指示を排除する。 CoT+Self-Consistency 段階推論で飛躍を防ぎ、重要観点は多数決で安定化。 グラウンディング 典拠を必須化。根拠を引けない指摘は出さない設計に。 根拠(査読済み): Chain-of-Thought / Wei 2022(NeurIPS) 良い所見/悪い所見を対で提示し、基準を例で伝える。 構造化出力(enum) 観点・重大度をenum固定し、表記ゆれを根絶する。 temperature低め レビューは再現性重視。創造性より一貫性を優先。 / Self-Consistency / Wang 2023(ICLR) 04

5.

LEVER 3 ・ REVIEW ASPECTS ③ 観点別レビューの精度を上げる 1観点1プロンプト ルーブリック 観点を混ぜない。指示が単純化し、精度と再現性が上がる。 事実と所感を分離 根拠(章・行)必須 出力を二段に分け、レビュー記録の信頼性を高める。 根拠(査読済み): 要求QA / Lubos 2024(IEEE RE) 合否基準・重大度の付け方を明文化し、判定の属人化を防ぐ。 / LLM4SE / Hou 2024(ACM TOSEM) すべての指摘に出典を付け、検証可能な状態にする。 05

6.

LEVER 4 ・ EVAL-DRIVEN ④ 評価駆動で改善を回す(最重要) ゴールデンセット 代表設計書+期待所見を用意。小さく作って回し始める。 LLM-as-a-Judge 妥当性を自動採点。審査と対象を分離しバイアス対策。 エラー分析の型 「検索失敗」か「生成失敗」かを切り分けて対策を選ぶ。 根拠(査読済み): RAGAS / Es 2024(EACL) / LLM-as-a-Judge / Zheng 2023(NeurIPS) RAGAS 指標 Faithfulness/Relevanceで根拠忠実性を定量化する。 回帰テスト(CI) プロンプト変更時の品質劣化を自動で検知し、止める。 閾値ゲート化 Faithfulness<閾値はマージ不可、のように門番にする。 06

7.

LEVER 5 ・ DATA ⑤ データ・前処理の質を上げる クリーニング 重複・ヘッダ/フッタ・装飾ノイズを除去し、本文を整える。 用語辞書・同義語 固有名詞の表記を統一。抽出と突合の精度を底上げ。 版管理 最新版だけを索引。古い版の混入による誤検出を防ぐ。 ※ 前処理は地味だが効果が大きい。検索も生成も「入れたデータの質」を超えられない。 表・図の構造保持 表はMarkdown/HTML化し、崩さずに索引へ載せる。 メタデータ付与 章番号・文書種別・版を付け、検索の絞り込みを可能に。 標準の整備 レビュー基準・チェックリストを引用可能な形で知識ベース化。 07

8.

LEVER 6 ・ HALLUCINATION & LOOP ⑥ ハルシネーション対策とフィードバックループ 根拠なし指摘を抑制 システムプロンプトで強制し、誤検知を構造的に減らす。 引用範囲を保持 どこを根拠にしたかを追跡可能にし、検証を容易に。 Self-RAG的 自己検証 必要時のみ検索+自己批評で、過剰生成と幻覚を抑える。 根拠(査読済み): Self-RAG / Asai 2024(ICLR Oral) / RAGAS / Es 2024(EACL) Faithfulnessゲート 閾値未達は差戻し。事実性を品質の門番にする。 人手評価→データ拡充 誤りを集めてゴールデンセット/few-shotを更新する。 継続改善の運用 週次でエラー分析→改善→再評価。小さく速く回す。 08

9.

PRIORITY / ROI 優先順位:まず効く順(高ROI) 1 評価セットを作る 測れないと改善できない。すべての起点。 効果 大 コスト 小 2 検索の質を上げる ハイブリッド+リランクで根拠の的中率を改善。 効果 大 コスト 中 3 グラウンディング制約 効果 大 コスト 小 4 few-shot・プロンプト改善 効果 中 コスト 小 5 チャンク・前処理の再設計 データの質を底上げ。腰を据えて取り組む。 効果 中 コスト 中 6 モデル変更・長文脈の検討 最後の手段。上記を尽くしてから費用対効果を判断。 効果 中〜大 コスト 大 典拠必須・根拠なき指摘を出さない。誤検知を即削減。 良/悪の例で基準を伝える。低コストで効く。 合言葉:まず①評価。次に②検索と③根拠。モデル変更は最後。 09

10.

ANTI-PATTERNS やりがちな失敗(アンチパターン)と対策 ✗ 評価なしでプロンプトを延々いじる → ✓ まずゴールデンセットで測る。勘でなく数値で改善。 ✗ top-k をただ増やす → ✓ リランク+圧縮で精選(Lost in the Middle対策)。 ✗ temperatureを上げて“賢く”する → ✓ 低温+構造化で再現性を確保。レビューは一貫性。 ✗ 根拠なしで指摘させる → ✓ 典拠必須。根拠を引けない指摘は出さない。 ✗ 1プロンプトに全観点を詰める → ✓ 1観点1プロンプトに分割し精度を上げる。 ✗ チャンクを大きく/小さくしすぎ → ✓ 見出し単位+親子チャンクで文脈と精度を両立。 10

11.

CHECKLIST 精度向上チェックリスト(実務用) 検索 ☐ ハイブリッド検索(BM25+ベクトル)を入れた ☐ top候補をリランクしている ☐ クエリ書換/HyDEを検討した ☐ 引用範囲(章・行)を保持している 評価 ☐ ゴールデンセットがある ☐ RAGAS/Judgeで採点している ☐ CIで回帰テストしている ☐ 検索失敗/生成失敗を切り分けている 生成 ☐ 典拠必須をプロンプトで強制した ☐ 観点を1プロンプト1観点に分けた ☐ 出力をenum付きスキーマで構造化した ☐ temperatureを低めに設定した データ ☐ 表・図を崩さず索引化した ☐ 用語辞書で表記を統一した ☐ 章/種別/版のメタデータを付けた ☐ 最新版のみ索引している 11

12.

REFERENCES 参考文献(査読済み・URL付き) 1 Lewis ほか 2020 RAG / NeurIPS arxiv.org/abs/2005.11401 2 Karpukhin ほか 2020 3 Gao ほか 2023 HyDE / ACL aclanthology.org/2023.acl-long.99 4 Ma ほか 2023 Query Rewriting / EMNLP aclanthology.org/2023.emnlp-main.322 5 Liu ほか 2024 Lost in the Middle / TACL aclanthology.org/2024.tacl-1.9 6 Wei ほか 2022 Chain-of-Thought / NeurIPS 7 Wang ほか 2023 Self-Consistency / ICLR 8 Asai ほか 2024 9 Zheng ほか 2023 10 Es ほか 2024 11 Hou ほか 2024 DPR(密検索)/ EMNLP Self-RAG / ICLR (Oral) aclanthology.org/2020.emnlp-main.550 arxiv.org/abs/2201.11903 arxiv.org/abs/2203.11171 openreview.net/forum?id=hSyW5go0v8 LLM-as-a-Judge / NeurIPS arxiv.org/abs/2306.05685 RAGAS / EACL aclanthology.org/2024.eacl-demo.16 LLM4SE 体系的レビュー / ACM TOSEM doi.org/10.1145/3695988 検索精度=DPR/HyDE/Query Rewriting/Lost in the Middle、推論=CoT/SC、評価=RAGAS/Judge、適応的検索=Self-RAG。

13.

TAKEAWAYS 精度向上のまとめ まず「測る」を作る ゴールデンセット+RAGAS/Judge。改善は評価から始まる。 検索の質で底上げ ハイブリッド+リランク+圧縮で根拠の的中率を上げる。 根拠で誤検知を断つ 典拠必須・根拠なき指摘は出さない。Faithfulnessで監視。 構造化で安定運用 観点・重大度をenum化し、集計とゲートを破綻させない。 小さく速く回す 週次でエラー分析→改善→再評価。モデル変更は最後。 結論: 精度は仕組みで上げる。測れる評価を起点に、検索と根拠で底上げし、データと運用で支える。