>100 Views
June 22, 26
スライド概要
2026/06/11
何卒よろしくお願い申し上げます。 一流のIT研修講師を目指し、日々研鑽を続けております。 本資料は外部公開用としてご提供するものです。
うさうさ研修工房 / AI設計書レビュー PoC TypeScriptでできる 設計書レビュー PoC 生成AI × RAG による設計書レビュー支援 ―― 「できること」を査読済み論文で裏づける RAG Chain-of-Thought Self-Consistency LLM-as-a-Judge RAGAS 出典は査読済み論文(国内・海外)のみ。実装ツール名は実装手段であり、論文の主張とは区別して記載しています。
WHY NOW なぜ設計書レビューをAIで支援するのか レビュー品質の属人化 観点(網羅性・曖昧性・一貫性)がレビュアの経験に依存し、見落としが起 きやすい。 標準・規約との突合に工数 社内標準やIEEE系ガイドとの整合確認は手作業で、件数が増えるほど負荷が 増大。 研究が示す方向性 LLMは要求工学(RE)の各活動 ―― とり わけ検証・妥当性確認 ―― に適用が進む。 一方で、出力の誤り抑制には「人+ツール 」のハイブリッド運用が不可欠と指摘され る。 トレーサビリティ確認が困難 上位要件→下位要件→設計のカバレッジ確認は目視中心で抜けが生じやすい 。 設計書レビュー PoC ― 背景 出典:Hou et al. 2024 (ACM TOSEM) / Khan et al. 2024 (LLM4RE SLR) 02
OVERVIEW PoCで「TypeScriptでできること」全体像 ① 取込・分割 ② 根拠検索 (RAG) ③ 観点レビュー ④ 評価・品質ゲート 設計書/標準を チャンク化・索引化 社内標準・規約を 根拠付きで突合 網羅性・曖昧性・一貫性 を推論強化で点検 出力を自動採点し 合否を判定 基盤技法(査読済み) RAG Lewis 2020 / NeurIPS CoT Wei 2022 / NeurIPS 評価 LLM-as-a-Judge: Zheng 2023 / NeurIPS 設計書レビュー PoC ― 全体像 Self-Consistency Wang 2023 / ICLR RAGAS Es 2024 / EACL 03
CAPABILITY 01 ① 根拠付きレビュー:標準・規約との突合(RAG) 何ができるか • 社内標準・コーディング規約・IEEE系ガイドを外部知識として参照し、 設計書の記述を「根拠(出典箇所)付き」で照合。 • モデルの内部知識だけに頼らず、根拠文書を検索して回答に紐づけるこ とでハルシネーション(誤生成)リスクを低減。 • 「この記述は標準§4.2に違反」のように、指摘と典拠をセットで提示 ―― レビュー所見の説明責任を担保。 設計書レビュー PoC ― できること① 査読済みの根拠 Lewis et al. (2020) Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks NeurIPS 2020, 33, 9459–9474 外部知識を検索して生成に統合する枠組みを提示。 知識集約タスクで精度と事実性を改善することを示 した、RAGの基礎論文。 04
CAPABILITY 02 ② 推論強化:論理の飛躍・矛盾を検出する Chain-of-Thought Self-Consistency 途中の推論ステップを明示させ、設計判断の根拠を段階的に 点検。複雑な整合確認で見落としを減らす。 複数の推論経路を生成し多数決で安定化。指摘のブレを抑え 、再現性の高いレビュー結論を得る。 Wei et al. (2022) NeurIPS 2022, 35, 24824–24837 Wang et al. (2023) ICLR 2023 PoCでの使い方: 観点別チェックのプロンプトにCoTを組み込み、重要観点はSelf-Consistencyで多数決 ―― 「速いが浅い」 を「説明できて安定」へ。 設計書レビュー PoC ― できること② 05
CAPABILITY 03 ③ 観点別レビュー:4つの品質観点を自動点検 網羅性 (Completeness) 曖昧性・品質 (QA) 要件の抜け・記述漏れを検出。LLMによる完全性補助の有効性が報 告。 曖昧・非一貫な記述を品質保証観点で指摘。要求のQA支援を実証。 Luitel et al. 2024 (Requirements Eng. 29) Lubos et al. 2024 (IEEE RE) トレーサビリティ 意図の明確化 上位要件→下位要件のカバレッジ照合をレビュー支援。 例示付きプロンプトで要求抽出・明確化の質を改善(国内研究)。 Preda et al. 2024 (MSR) Ren, Nakagawa & Tsuchiya 2024 (COMPSAC) 設計書レビュー PoC ― できること③ 06
CAPABILITY 04 ④ 出力品質の自動評価と品質ゲート LLM-as-a-Judge • • 強いLLMを審査者とし、レビュー所見の妥当性を採点。人手 評価と高い一致が報告される。 位置・冗長・自己優遇などのバイアスと対策も整理されてお り、運用設計の指針になる。 RAGAS RAGパイプラインを正解ラベルなしで評価する枠組み。 ・Faithfulness(根拠忠実性) ・Answer Relevance(回答適合性) ・Context Relevance(文脈適合性) を自動算出 ―― 「根拠に忠実か」を定量ゲート化できる。 Zheng et al. (2023) ― NeurIPS 2023 (Datasets & Benchmarks) 設計書レビュー PoC ― できること④ Es et al. (2024) ― EACL 2024 (System Demonstrations), 150–158 07
IMPLEMENTATION TypeScriptでの実装スタック(実装手段) ご注意: 以下は実装を実現する手段であり、ライブラリ名そのものは査読論文の主張ではありません。論文の裏づけは前段の「技法」に対応します。 オーケストレーション LangChain.js / LangGraph.js または Vercel AI SDK で取込→検索→ レビュー→評価を連結。human-in-the-loop も実装可。 検索・索引 LlamaIndex.TS や pgvector・各ベクタDBのTSクライアントで社内標 準を索引化。チャンク設計と再ランクで根拠精度を確保。 設計書レビュー PoC ― 実装スタック 型安全な構造化出力 Zod スキーマで「指摘フォーマット」を型定義し、LLM出力を検証・整 形。型で品質を強制 ―― TypeScript固有の強み。 評価・運用 promptfoo / autoevals でFaithfulness等を算出しCIで品質ゲート化。 Node / Deno / Bun、APIキーはメモリ保持・典拠付き出力。 08
POC DESIGN PoC評価設計:指標・スコープ・進め方 指摘一致率 Faithfulness 削減工数 人手レビューとの 所見一致を測定 RAGASで根拠 忠実性を定量化 1件あたりの レビュー時間短縮 進め方(4ステップ) 1. 対象選定 代表的な設計書と 社内標準を1セット 設計書レビュー PoC ― 評価設計 2. 小規模実装 → RAG+観点レビュー を最小構成で構築 3. 評価 → 指摘一致率・RAGAS で定量・定性評価 4. 判断 → 本格導入の可否と 改善点を整理 09
RISKS & GUARDRAILS 留意点:「嘘をつかない」ための設計原則 ハルシネーション 根拠なしの断定を排除。すべての指摘に典拠(標準§や行番号)を必須化し、RAGASの Faithfulnessで監視。 評価バイアス LLM-as-a-Judgeの位置・冗長・自己優遇バイアスに留意。審査プロンプトと対象を分 離し、人手で抜き取り検証。 人+ツールの併用 最終判断は人が担う前提。研究も誤り抑制にはハイブリッド運用が必要と指摘。PoCは 「置換」でなく「支援」。 設計書レビュー PoC ― 留意点 10
REFERENCES 参考文献 ― すべて査読済み(国内・海外) 1 Lewis, P. et al. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. NeurIPS 2020, 33, 9459–9474. 2 Wei, J. et al. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. NeurIPS 2022, 35, 24824–24837. 3 Wang, X. et al. (2023). Self-Consistency Improves Chain of Thought Reasoning in Language Models. ICLR 2023. 4 Zheng, L. et al. (2023). Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena. NeurIPS 2023 (Datasets & Benchmarks Track). 5 Es, S., James, J., Espinosa-Anke, L. & Schockaert, S. (2024). RAGAs: Automated Evaluation of Retrieval Augmented Generation. EACL 2024 (System Demonstrations), 150–158. DOI: 10.18653/v1/2024.eacl-demo.16 6 Hou, X. et al. (2024). Large Language Models for Software Engineering: A Systematic Literature Review. ACM TOSEM, 33(8), Art. 220. DOI: 10.1145/3695988 7 Lubos, S. et al. (2024). Leveraging LLMs for the Quality Assurance of Software Requirements. IEEE RE 2024, 389 –397. 8 Preda, A.-R., Mayr-Dorn, C., Mashkoor, A. & Egyed, A. (2024). Supporting High-Level to Low-Level Requirements Coverage Reviewing with LLMs. MSR 2024, 242–253. 9 Ren, S., Nakagawa, H. & Tsuchiya, T. (2024). Combining Prompts with Examples to Enhance LLM-Based Requirement Elicitation. IEEE COMPSAC 2024, 1376–1381. [国内・大阪大学] 10 Luitel, D., Hassani, S. & Sabetzadeh, M. (2024). Improving Requirements Completeness: Automated Assistance through Large Language Models. Requirements Engineering, 29, 73–95. 査読を経ていない一般プレプリント等は本資料の出典に含めていません(「嘘をつかない」原則)。
SUMMARY まとめ 根拠付きで指摘できる RAGで標準・規約と突合し、典拠付きの所見を提示(Lewis 2020)。 論理を安定して点検 CoT+Self-Consistencyで飛躍・矛盾を再現性高く検出(Wei 2022 / Wang 2023)。 品質を定量ゲート化 LLM-as-a-Judge+RAGASで出力を自動採点(Zheng 2023 / Es 2024)。 人を支援する設計 要求工学での有効性と限界を踏まえ、人+ツールで運用(Hou 2024 ほか)。 結論: TypeScriptで「根拠付き・観点別・定量評価」の設計書レビュー支援はPoC実現可能。型安全+査読済み論文で裏づけ。