設計書レビューPoC_TypeScript_2026_06_22

>100 Views

June 22, 26

#poc

スライド概要

2026/06/11

smile_yukiko_it

@smile_yukiko_it

スライド一覧

何卒よろしくお願い申し上げます。一流のIT研修講師を目指し、日々研鑽を続けております。本資料は外部公開用としてご提供するものです。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

勉強会_ものづくりの6つの原理原則_理系向け6時間_2026_05_24_石黒友季子

ai駆動開発 ai

smile_yukiko_it 780

【公開】質問力研修_新入社員未経験向け

エンジニアコミュニケーション

smile_yukiko_it 402

ISO規格別_社内SE業務フロー資料

smile_yukiko_it 176

【新卒未経験学生向け】エンジニアコミュニケーションフレーズ集 💬エンジニアのためのコミュニケーションフレーズ集

smile_yukiko_it 155

LPIC3_303_Study

smile_yukiko_it 152

No.2【図解】メンター声掛けフレーズ集_18シーン

smile_yukiko_it 133

各ページのテキスト

うさうさ研修工房／ AI設計書レビュー PoC TypeScriptでできる設計書レビュー PoC 生成AI × RAG による設計書レビュー支援 ―― 「できること」を査読済み論文で裏づける RAG Chain-of-Thought Self-Consistency LLM-as-a-Judge RAGAS 出典は査読済み論文（国内・海外）のみ。実装ツール名は実装手段であり、論文の主張とは区別して記載しています。

WHY NOW なぜ設計書レビューをAIで支援するのかレビュー品質の属人化観点（網羅性・曖昧性・一貫性）がレビュアの経験に依存し、見落としが起きやすい。標準・規約との突合に工数社内標準やIEEE系ガイドとの整合確認は手作業で、件数が増えるほど負荷が増大。研究が示す方向性 LLMは要求工学（RE）の各活動 ―― とりわけ検証・妥当性確認 ―― に適用が進む。一方で、出力の誤り抑制には「人＋ツール」のハイブリッド運用が不可欠と指摘される。トレーサビリティ確認が困難上位要件→下位要件→設計のカバレッジ確認は目視中心で抜けが生じやすい。設計書レビュー PoC ― 背景出典：Hou et al. 2024 (ACM TOSEM) ／ Khan et al. 2024 (LLM4RE SLR) 02

OVERVIEW PoCで「TypeScriptでできること」全体像 ① 取込・分割 ② 根拠検索 (RAG) ③ 観点レビュー ④ 評価・品質ゲート設計書/標準をチャンク化・索引化社内標準・規約を根拠付きで突合網羅性・曖昧性・一貫性を推論強化で点検出力を自動採点し合否を判定基盤技法（査読済み） RAG Lewis 2020 / NeurIPS CoT Wei 2022 / NeurIPS 評価 LLM-as-a-Judge: Zheng 2023 / NeurIPS 設計書レビュー PoC ― 全体像 Self-Consistency Wang 2023 / ICLR RAGAS Es 2024 / EACL 03

CAPABILITY 01 ① 根拠付きレビュー：標準・規約との突合（RAG）何ができるか • 社内標準・コーディング規約・IEEE系ガイドを外部知識として参照し、設計書の記述を「根拠（出典箇所）付き」で照合。 • モデルの内部知識だけに頼らず、根拠文書を検索して回答に紐づけることでハルシネーション（誤生成）リスクを低減。 • 「この記述は標準§4.2に違反」のように、指摘と典拠をセットで提示 ―― レビュー所見の説明責任を担保。設計書レビュー PoC ― できること① 査読済みの根拠 Lewis et al. (2020) Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks NeurIPS 2020, 33, 9459–9474 外部知識を検索して生成に統合する枠組みを提示。知識集約タスクで精度と事実性を改善することを示した、RAGの基礎論文。 04

CAPABILITY 02 ② 推論強化：論理の飛躍・矛盾を検出する Chain-of-Thought Self-Consistency 途中の推論ステップを明示させ、設計判断の根拠を段階的に点検。複雑な整合確認で見落としを減らす。複数の推論経路を生成し多数決で安定化。指摘のブレを抑え、再現性の高いレビュー結論を得る。 Wei et al. (2022) NeurIPS 2022, 35, 24824–24837 Wang et al. (2023) ICLR 2023 PoCでの使い方：観点別チェックのプロンプトにCoTを組み込み、重要観点はSelf-Consistencyで多数決 ―― 「速いが浅い」を「説明できて安定」へ。設計書レビュー PoC ― できること② 05

CAPABILITY 03 ③ 観点別レビュー：4つの品質観点を自動点検網羅性 (Completeness) 曖昧性・品質 (QA) 要件の抜け・記述漏れを検出。LLMによる完全性補助の有効性が報告。曖昧・非一貫な記述を品質保証観点で指摘。要求のQA支援を実証。 Luitel et al. 2024 (Requirements Eng. 29) Lubos et al. 2024 (IEEE RE) トレーサビリティ意図の明確化上位要件→下位要件のカバレッジ照合をレビュー支援。例示付きプロンプトで要求抽出・明確化の質を改善（国内研究）。 Preda et al. 2024 (MSR) Ren, Nakagawa & Tsuchiya 2024 (COMPSAC) 設計書レビュー PoC ― できること③ 06

CAPABILITY 04 ④ 出力品質の自動評価と品質ゲート LLM-as-a-Judge • • 強いLLMを審査者とし、レビュー所見の妥当性を採点。人手評価と高い一致が報告される。位置・冗長・自己優遇などのバイアスと対策も整理されており、運用設計の指針になる。 RAGAS RAGパイプラインを正解ラベルなしで評価する枠組み。・Faithfulness（根拠忠実性）・Answer Relevance（回答適合性）・Context Relevance（文脈適合性）を自動算出 ―― 「根拠に忠実か」を定量ゲート化できる。 Zheng et al. (2023) ― NeurIPS 2023 (Datasets & Benchmarks) 設計書レビュー PoC ― できること④ Es et al. (2024) ― EACL 2024 (System Demonstrations), 150–158 07

IMPLEMENTATION TypeScriptでの実装スタック（実装手段）ご注意：以下は実装を実現する手段であり、ライブラリ名そのものは査読論文の主張ではありません。論文の裏づけは前段の「技法」に対応します。オーケストレーション LangChain.js / LangGraph.js または Vercel AI SDK で取込→検索→ レビュー→評価を連結。human-in-the-loop も実装可。検索・索引 LlamaIndex.TS や pgvector・各ベクタDBのTSクライアントで社内標準を索引化。チャンク設計と再ランクで根拠精度を確保。設計書レビュー PoC ― 実装スタック型安全な構造化出力 Zod スキーマで「指摘フォーマット」を型定義し、LLM出力を検証・整形。型で品質を強制 ―― TypeScript固有の強み。評価・運用 promptfoo / autoevals でFaithfulness等を算出しCIで品質ゲート化。 Node / Deno / Bun、APIキーはメモリ保持・典拠付き出力。 08

POC DESIGN PoC評価設計：指標・スコープ・進め方指摘一致率 Faithfulness 削減工数人手レビューとの所見一致を測定 RAGASで根拠忠実性を定量化 1件あたりのレビュー時間短縮進め方（4ステップ） 1. 対象選定代表的な設計書と社内標準を1セット設計書レビュー PoC ― 評価設計 2. 小規模実装 → RAG＋観点レビューを最小構成で構築 3. 評価 → 指摘一致率・RAGAS で定量・定性評価 4. 判断 → 本格導入の可否と改善点を整理 09

10.

RISKS & GUARDRAILS 留意点：「嘘をつかない」ための設計原則ハルシネーション根拠なしの断定を排除。すべての指摘に典拠（標準§や行番号）を必須化し、RAGASの Faithfulnessで監視。評価バイアス LLM-as-a-Judgeの位置・冗長・自己優遇バイアスに留意。審査プロンプトと対象を分離し、人手で抜き取り検証。人＋ツールの併用最終判断は人が担う前提。研究も誤り抑制にはハイブリッド運用が必要と指摘。PoCは「置換」でなく「支援」。設計書レビュー PoC ― 留意点 10

11.

REFERENCES 参考文献 ― すべて査読済み（国内・海外） 1 Lewis, P. et al. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. NeurIPS 2020, 33, 9459–9474. 2 Wei, J. et al. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. NeurIPS 2022, 35, 24824–24837. 3 Wang, X. et al. (2023). Self-Consistency Improves Chain of Thought Reasoning in Language Models. ICLR 2023. 4 Zheng, L. et al. (2023). Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena. NeurIPS 2023 (Datasets & Benchmarks Track). 5 Es, S., James, J., Espinosa-Anke, L. & Schockaert, S. (2024). RAGAs: Automated Evaluation of Retrieval Augmented Generation. EACL 2024 (System Demonstrations), 150–158. DOI: 10.18653/v1/2024.eacl-demo.16 6 Hou, X. et al. (2024). Large Language Models for Software Engineering: A Systematic Literature Review. ACM TOSEM, 33(8), Art. 220. DOI: 10.1145/3695988 7 Lubos, S. et al. (2024). Leveraging LLMs for the Quality Assurance of Software Requirements. IEEE RE 2024, 389 –397. 8 Preda, A.-R., Mayr-Dorn, C., Mashkoor, A. & Egyed, A. (2024). Supporting High-Level to Low-Level Requirements Coverage Reviewing with LLMs. MSR 2024, 242–253. 9 Ren, S., Nakagawa, H. & Tsuchiya, T. (2024). Combining Prompts with Examples to Enhance LLM-Based Requirement Elicitation. IEEE COMPSAC 2024, 1376–1381. ［国内・大阪大学］ 10 Luitel, D., Hassani, S. & Sabetzadeh, M. (2024). Improving Requirements Completeness: Automated Assistance through Large Language Models. Requirements Engineering, 29, 73–95. 査読を経ていない一般プレプリント等は本資料の出典に含めていません（「嘘をつかない」原則）。

12.

SUMMARY まとめ根拠付きで指摘できる RAGで標準・規約と突合し、典拠付きの所見を提示（Lewis 2020）。論理を安定して点検 CoT＋Self-Consistencyで飛躍・矛盾を再現性高く検出（Wei 2022 / Wang 2023）。品質を定量ゲート化 LLM-as-a-Judge＋RAGASで出力を自動採点（Zheng 2023 / Es 2024）。人を支援する設計要求工学での有効性と限界を踏まえ、人＋ツールで運用（Hou 2024 ほか）。結論： TypeScriptで「根拠付き・観点別・定量評価」の設計書レビュー支援はPoC実現可能。型安全＋査読済み論文で裏づけ。