>100 Views
March 12, 26
スライド概要
DeNA品質管理部門が進める「QAのAI化戦略」と、AI時代における新しい品質への取り組みを紹介します。開発スピードが加速する中、従来のQAだけでは“利用者にとって安全・安心であること”を維持しつつ効率化を図ることが難しくなっています。当部門では、要件定義支援、テスト設計、テスト実施にAIを導入し、機能的品質・社会的品質の両立を追求。品質を落とさずコスト最適化を実現する、新しいQAモデルと組織のあり方をご紹介します。
DeNA が社会の技術向上に貢献するため、業務で得た知見を積極的に外部に発信する、DeNA 公式のアカウントです。DeNA エンジニアの登壇資料をお届けします。
AI×品質管理 TITLE SUBTITLE 新しいQAモデルによる生産性倍増への挑戦 品質管理部 NAME藤﨑 隆
SUBTITLE 目次 1. イントロ 2. 品管AIジャーニーとは 3. 成果と取り組み 4. 成功要因 5. 今後
SUBTITLE 藤﨑 隆 (品質管理部) 現場の最前線(テスト設計・実行)から、 マネジメント(戦略策定・品質管理)までを包括的に対応 AI×品質管理ではPdMとしてサービス開発 QA JSTQB Advanced Level TestManager JSTQB Advanced Level TestAnalyst IVEC アーキテクト 情報処理技術者試験 プロジェクトマネージャ PM 認定スクラムマスター PHOTO
AI × プライベート AIは私の『パーソナルトレーナー』 陸上競技 日本マスターズ陸上競技選手権 100m 11秒29(40歳) M40 4×400mリレー 優勝 日本記録 パーソナルトレーナーの役割 練習メニュー 栄養管理 動画分析 メンタリング
部門紹介① DeNA 品質管理部 ていりつ Mission: QCDの鼎立 三つのものが対等に並び立ち、 互いにバランスを保っている状態 組織の意義は システムが動き続けること QCグループ ソーシャル QAグループ 開発グループ ソフトウェア品質管理 社会的品質管理 ソフトウェア開発支援
部門紹介② DeNA 品質管理部 年間 230回リリース/25.4万件のテスト *game側情報は非公開のため除く 収集データ テストデータ 分析 27種類 Delight品質 工数 分析 35種類 機能的 品質 社会的 品質 サービス 品質
部門紹介③ DeNA 品質管理部 年間 Game 数十億円のQA費 Healthcare Medical Live Streaming Sport SmartCity GWS MSOffice Github JIRA Confluence Notion Miro Figma Backlog draw.io 様々な違いを吸収して QA New AI
SUBTITLE 品管AIジャーニー
品管AIジャーニーとは AIジャーニー DeNAが「AI ネイティブ」を達成するための道のり AIジャーニー 品管AIジャーニー 他のAIジャーニー AI×品質管理
品管AIジャーニーの成り立ち 認 算承 宣言 を発足 を 予 イン ニー ーの ル ー ニ ー ャ ャー Iオ Iジ A A ジ 合宿 I が が A ム 南場 金子 品管 チー 2025/2 2025/3 完成 o t o Pr 2025/5 チュ ング ニ ー 開 利用 社内 2026/1 始
AI化の目的と評価軸 生産性倍増 Quality 維持したい Cost 削減したい Delivery 短縮したい
AI化するテーマを設定 プロジェクト工数分析からAI化テーマを設定 テスト作成 仕様書検証、テスト項目書 *「テスト設計」の解釈が広いため、作成=設計+実装と定義 テスト自動化 自然言語指示によるテスト実施/不具合検出 社会的品質審査 法令・各種規約、倫理・レピュテーションリスクの回避
SUBTITLE 成果と取り組み
コスト削減、デリバリー短縮の実現 生産性の倍増 テスト作成 テスト自動化 社会的品質審査 テスト作成工数 80%削減 作成精度 95%修正不要 インスペ指摘 92%有効 テストスクリプト工数 90%削減 モバイルアプリ 検証中 リリース前審査 5日→即日 高難易度の審査対応 脱俗人化 機能テスト 1600項目 2時間 表示テスト 22000項目 6時間 自然言語によるテスト実行 不具合検知と報告 誤操作、誤判断の自己検知 法令・各種規約・倫理 レピュテーションリスク
コスト削減、デリバリー短縮の実現 トータルコストは50%減 テスト作成 テスト自動化
成果と取り組み テスト作成 テスト自動化 社会的品質審査 16
2024/12/4 生成AIに可能性を感じる 2024/12/4 テスト観点 テスト観点 テスト手順 前モデル 最新モデル 人間が考える余地があるが、 出力はだいぶ具体的になってきた このままテスト出来そうな内容。 後半はエラーケースが網羅されてた 電卓 の仕様書
2025/2/18 正直、もっと簡単に成功すると思ってた ... 電卓 の仕様書 90点 実務レベルだと、 課題多い・・・ プロジェクト ドキュメント 20点
すぐ見えてきた課題 No. 課題(品管目線と違ったこと) 詳細 ① 正確に「一言一句」処理するは苦手 QAは正確性を問われる仕事 「翻訳された仕様」に信頼性が無い ② 他の仕様書、もしかして読んで無い?? 一緒に渡した仕様書を読んだ形跡が無い ③ 長いと途中でやめちゃう 以降も必要ですか??と繰り返し、指示への抵抗を示す ④ 画像読めないの??? 画像を渡しても、見ているとは感じられない このQAさん(AIくん)の成果物は 不安
QAに期待される作業精度と記録 作業精度 ・「テストミス」は、絶対にあってはならない ・「テスト漏れ」は、絶対にあってはならない =本番障害 記録 ・作業の「記録」が残っていなければならない ・5年前のテスト結果の理由に答えられないといけない 後から確認できる状態 QAは安心感を提供することが役割
AI化の基本理念 『常に制御可能な状態に置く』 Garbage In,Garbage Out 清浄なデータ 清浄な成果物 AI処理
品質管理の Garbage 情報は過剰以外に、不足も Garbage 情報 矛盾・更新漏れ・情報が埋もれる 品質管理のコンフォートゾーン 想像 仕様書インスペクション 情報
テスト作成 仕様書からテスト作成 テスト作成工数 80%削減 作成精度 95%修正不要 インスペ指摘 92%有効 14のテストタイプ 仕様書 機能テスト 機能テスト 項目書 表示テスト 表示テスト 項目書 仕様書 インスペクション 複合テスト : シナリオテスト
テスト作成 INPUT 段階的な情報制御 ①Garbage(情報の過不足)を入れない制御 ②AIに正確に情報を把握させる制御 Processing OUTPUT テスト作成工数 80%削減 作成精度 95%修正不要 インスペ指摘 92%有効
テスト作成 PRD テスト作成工数 80%削減 作成精度 95%修正不要 インスペ指摘 92%有効 ①Garbage(情報の過不足)を入れない制御 1.概要 7.技術的要求 Gargabe 議事録 プロダクト バックログ 体制図 2.背景 8.スコープ 3.製品原則 9.リリーススケジュール マイルストーン 4.対象ユーザー 10.関連ページ 5.ユースケース 11.参照項目 スケジュール 6.機能要求 ● ● ● ● ● 要望 構想 感想 質問 枠外のコメント 不要情報は 徹底トリミング
テスト作成 ②AIに正確に情報を把握させる制御 テスト作成工数 80%削減 作成精度 95%修正不要 インスペ指摘 92%有効 MCP RAG VLM 全数保証が必要な情報には、 MCPを行わない RAGの参照先もブレる 重要情報の優先度を確保 AIは画像から何を読み取るのか? 必要な情報が抽出されるよう制御 仕様書 MCP 仕様書
テスト作成 ①②完了 テスト作成工数 80%削減 作成精度 95%修正不要 インスペ指摘 92%有効 AIには清浄なINPUTがある 要件整理 100% テスト実装 清浄なINPUTから、Garbage OUT。。。 仕様の把握 34% テスト項目書 品管伝家の宝刀 プロセス改善で制御する
テスト作成 INPUT 三段階の情報制御 テスト作成工数 80%削減 作成精度 95%修正不要 インスペ指摘 92%有効 ①Garbage(情報の過不足)が入らない制御 ②AIに正確に情報を把握させる制御 Processing OUTPUT ③正しい段取りで情報処理を行う制御
すぐ見えてきた課題は『プロンプト』 No. プロンプトの課題 詳細 ① プロンプトが効きづらい 長文のプロンプトは AIの理解度が下がる ② 複数内容を同時に教えられない 作業内容が複数あり、混乱して作業内容が混ざる ③ 箇条書きなどの一般的な表現が伝わらない Markdown形式の方がお好みの模様 AIに併せた 工夫で解決する
テスト作成 ③正しい段取りで情報処理を行う制御 テスト作成工数 80%削減 作成精度 95%修正不要 インスペ指摘 92%有効 精度70%の連続処理はロスが大きい。精度 34%からはリカバれない 要件整理 テスト分析 テスト設計 テスト実装 100% 70% 49% 34% 仕様の把握 テスト分析書 テスト設計書 テスト項目書 手が付けられない状態 AI ゼネラリスト ・いきなり完成品を作るのはやめよう ・全部一人でやるのはやめよう
テスト作成 ③正しい段取りで情報処理を行う制御 テスト作成工数 80%削減 作成精度 95%修正不要 インスペ指摘 92%有効 スペシャリスト集団 のリレー処理 ・得意なことに集中 ・中間成果物をレビュー プロセス内部をさらに細分化。人間がレビューして 100%にする。 要件整理 100% 仕様の把握 テスト分析 テスト設計 テスト実装 90% 90% 90% 100% 100% 100% テスト分析書 テスト設計書 テスト項目書 軽微なミスは 修正可能
テスト作成 ③正しい段取りで情報処理を行う制御 リレーに参加したプロンプト達 収集データ プロンプト数 プロンプト成功/失敗事例 42種類 2000件超 テスト設計 4年目 テスト作成工数 80%削減 作成精度 95%修正不要 インスペ指摘 92%有効
テスト作成工数 80%削減 作成精度 95%修正不要 インスペ指摘 92%有効 テストプロセスも変化する テスト作成 仕 様 変 更 QA開始 ★ 従来 インスペクション ★ ★ ★ テスト設計 ★ テスト実装 テスト実施 作業ボリュームがありリードタイムが発生 仕様変更による手戻りも常に発生 仕 様 変 更 ★ 今後 ★ ★ ★ インスペクション 仕様の精度だけを追及 確定情報でテスト開始できる ★ テ ス ト 設 計 手動テスト テ ス ト 実 装 自動テスト 画面の情報を把握出来れば、 正確なテスト手順が分かる
成果と取り組み テスト作成 テスト自動化 社会的品質審査 34
テスト自動化のイメージ テスト自動化 テストスクリプト工数 90%削減 モバイルアプリ 検証中 項目書からテストを行う 最新方針 AIで操作・判断 テスト対象 システム テスト結果 AIテスト実行 テスト項目書 不具合報告 当初構想 AIでテストコード生成 Playwrite コード生成 Playwrite 実行
テスト自動化 大事なところ以外は、大事ではない テストスクリプト工数 90%削減 モバイルアプリ 検証中 AIの柔軟性はテストと相性◎ テスト目的: 購入したチケットに、試合日の日付が記載されていること テスト手順: チケットシステムにログインする 3/27の日付を選択する 任意の座席を選択する 任意の枚数を選択する 任意の決済方法を選択する マイページを開く 期待値: 購入したチケットに 2026/3/27と記載されていること テスト 3/27のチケットを購入する チケットに試合日が記載されているか 指示外は 柔軟に
AIの特性に合わせたテスト実行のモデル テスト自動化 テストスクリプト工数 90%削減 モバイルアプリ 検証中 柔軟性のメリットは、定常コストの最小化 テスト目的: 購入したチケットに、試合日の日付が入っていること 仕様変更 ※ログイン認証方式の変更 テスト項目 ・影響無いため、テストは修正しない 自動化スクリプト ・自動化スクリプトを必要としない 全工数の15% テスト結果 ・テストの結果が『変わらず』受け取れる
テストスクリプト工数 90%削減 モバイルアプリ 検証中 柔軟性ゆえに起こる問題 テスト自動化 テスト実行の 頻出課題 手順が正しいか AI 自己申告 誤っていると ちゃんと やった バグ流出の 可能性 偽陽性をどのように抑えるか 期待値通りか 失敗した 再確認 結果OK バグ流出の 確定 結果NG 再確認 専用検証サイトで能力評価
テスト自動化 テストスクリプト工数 90%削減 モバイルアプリ 検証中 実際の運用時のケア セルフチェックとクロスチェック テスト対象 システム テスト項目書 AIテスト実行 テスト結果 不具合報告 テスト 実行報告 項目書 )テスト手順と期待値 実行報告)テスト手順と期待値 セルフチェック クロスチェック
系統立てて対処する テスト自動化 テストスクリプト工数 90%削減 モバイルアプリ 検証中 上手くいかない何か テーマ分解 LLM 正確性 LLM 妥当性 優先度 S,A,B,C 定量評価 指標に基づいて1~5 ・AIが止まらない ・サマリ報告しない ・指示外のことをする ・トークン数超過エラー ・PCロックでシステム停止 ・JIRA番号を間違える ・誤解釈して処理する ・特定の操作が苦手 ・うまくいかないと簡単に断念 APP ・もっさり感 ・スクショを失敗 ・テスト結果報告が途中まで
テスト自動化 トライアル中 仕様書不要の完全アドホックテスト テスト対象 システム テスト項目書 画面情報 テスト実行 テスト結果 不具合報告 テスト チャーター アドホックテストの指示書 標準テスト観点 テストスクリプト工数 90%削減 モバイルアプリ 検証中 テスト自動化のイメージ 10時間で1400件検証 ・誤字脱字 ・データ破損 ・日時時刻、ロケーションから見た妥当性 ・一般的見地からの違和感 :
成果と取り組み テスト作成 テスト自動化 社会的品質審査 42
社会的品質審査 法令・コンプライアンス 『社会的品質審査』の概要 倫理 プラットフォーム等の規約 法令、社内コンプライアンス諸規定を元に、準拠 表現内容や社会的な影響を、内規の規範や社 プラットフォームの各規約や審査結果例、市場 性を評価 外事例を元に、許容レベル別に判定 調査で得た情報を元に、規約の適合性を評価 💡 事業影響リスクを回避するため、少数精鋭の専門家が慎重な審査
社会的品質保証 審査における『 AIの振る舞い』も Garbage ハルシネーション 読取精度の低下 処理の怠り 動画や資料に記載されていない仕様を想像 テキスト資料において縦軸と横軸の文章構成 解析するファイル数が多いと「検証観点を読 し、事実と異なる実装前提でリスク評価を行 を正確に読み取れず、リスクの当てはめが正 み取れませんでした」と、読取の可否で雑に おうとしてしまう しくできない 判定結果を下してしまう 💡「情報の過不足( Garbage)」のもとを排除する徹底した制御が必要
社会的品質保証 制御と継承: AIを「審査官」に育てる ■ システムによる制御( Garbageの排除) ■ 知識による制御(暗黙知の形式知化) ① 入力の清浄化 テキストのマークダウン化や動画の分割により、 AIが文脈を見失わない「 100%読み取れるデータ」を作る ① 倫理基準のコード化 過去の社内外の炎上事例を分析し、 表現に関する「独自の倫理ランク」を定義して AIの判定基準に実装 ② 厳格な事実の評価 「わかりにくいか?」という主観を排除し、 「〜の描写が存在するか?」という客観的な事実認定へ指示を変換 ② アプリ審査合格のノウハウ継承 過去13年の審査事例から「修正が必須な実装」と 「説明次第で通過できる実装」の境界線を言語化して AIの判定基準に実装 💡 熟練者の「肌感」と「ノウハウ」を言語化し、組織全体の品質基準として固定化する
社会的品質保証 壁は「多重実行 ×総合判定」で乗り越える 2. 独立多重実行 (AI) 4. 対話と最終判断 (人間 +AI) ハルシネーション対策として、清 抽出された NG/要確認項目の根 浄化された同一データに対し、 AI 拠を目視確認。違和感があれば が独立して複数回の検証を実行 AIへ再質問し、専門的知見を加 する 味して最終確定する 1. データ清浄化 (人間 ) 3. 総合判定 (AI) 仕様書のマークダウン変換、長 複数回の検証結果を AI自ら統合 時間動画の分割・リネームを行 ・比較。「統合された判断理由」と い、曖昧さを排除した構造化 「リスク抜粋」を抽出し、ブレのな データを作成する い一次判定を生成 💡 AIによる即時一次判定 + 人間による確定判断=審査即日完了
再 コスト削減、デリバリー短縮の実現 掲 生産性の倍増 テスト作成 テスト自動化 社会的品質審査 テスト作成工数 80%削減 作成精度 95%修正不要 インスペ指摘 92%有効 テストスクリプト工数 90%削減 モバイルアプリ 検証中 リリース前審査 5日→即日 高難易度の審査対応 脱俗人化 機能テスト 1600項目 2時間 表示テスト 22000項目 6時間 自然言語によるテスト実行 不具合検知と報告 誤操作、誤判断の自己検知 法令・各種規約・倫理 レピュテーションリスク
動作デモ ● ● ● ダック DeNA AI Advanced Quality ふくろうはQAを代表する動物、よく見てバグ(虫)をみつける
動作デモ
動作デモ
動作デモ
SUBTITLE 成功要因
二つの成功要因 言語化 プロジェクト体制
『お風呂が沸いたら入りなさい』 お風呂が沸く 温度 40℃±1℃ 酸性度 pH 7.5±1.0 お湯のかさ 55cm以上 場所 神奈川県横浜市中区横浜公園 猶予時間 沸いてから 10分以内 終了期限 ~19:30まで お風呂に入る 仕様の裏返し 仕様の行間 不意な問い合わせを 回答出来る
言語化に重きを置く DeNA
品管の言語化 社員教育からAI教育へ インスペクション教育資料 テスト設計教育資料 成果物を体系的に点検するための 品質を確保するためにテストを体系 品質を網羅的に確認するためにあら 手法と観点を学ぶ教材。 的に設計する方法を学ぶ教材。 かじめ定義された共通の確認視点。 品質分析レポート 標準QAプロセス 標準テスト観点 当たり前品質 品質状況を可視化し、課題と改善方 品質を計画的に作り込み、確認し、 利用者が意識しないが、欠けると強 向を明確にする報告資料。 改善する一連の活動。 い不満につながる基本的な品質。
ヒト・モノ・カネの三原則 1/4 品管AIジャーニーの予算承認 カネ ヒト モノ 期待値 カネは期待値を明確にする
内部の組織・二つの軸 2/4 開発チーム 品管 AIジャーニー システム開発 利用部門 SWET 品質管理部長 AIスペシャリスト 業務理解 開発部門 決裁部門 AI・データ戦略統 括部 QA PdM IT本部長 AI試合解説 品質管理部
毎週末の steering committee 通称:ステコミ 開催 :毎週金曜日 通算 : 42回開催 スライド: 523頁 3/4 AIプロダクトのアセスメントプロセス・アセスメント理念・事業部との関係と生成AIへの期待・市販品 の課題とAJQNによる解決・プロダクトロードマップ・プロジェクト管理方法・プロジェクト報告方法・プ ロダクト価値のコスト換算式・レーダーチャート・AI能力の点数評価・データダンプの必要性・AI作業 の精度と削減工数の関係式・社内ツール調査・子会社とのNDA・多角的なプロンプト構造・プロン プトの分解・表示テストのための要素抽出・アクセス権限の規定・自動化対応のコスト実績・自律操 作ツールデモ・Q&A機能・追加予算相談・増員相談・スプリント化・ユーザーストーリーマッピングと イベントストーミング・ユーザーテストのコントロール・評価点数ごとのエンジニアスキルセット・ミラー 活動とスケジュール・ノンスクリプトテストの可能性・少数プロンプトによる競合・AIの曖昧性の良し 悪し・UIバグが開発ボトルネック・プロンプト改善プロセス・開発生産性向上のAI開発ツール導入 ・AIはスクリプトテストが苦手・システム分析のデモ・Few-shot Learningの検討・ファインチューニン グの可能性調査・自動化ツールのJIRA起票・永年のノウハウがAIに活きる・システムテスト作成の デモ・仕様書インスペクションのデモ・ツール名称・ミラーチームからのフィードバック・デザイナー投 入の相談・ツールマニュアルの作成・QAロール別のツール評価差異・人間単体とAI+ミラーチーム の成果物比較・テスト自動化の本番投入段取り・表示テストの厳密度の理由・表示テストの工数効 果・アジャイルPJへのAI活用計画・現場導入プロセス・ミラーチームの評価方式変更・Notionを INPUT・標準テスト観点生成・手動時代のテスト成果物メトリクス・市場不具合の標準テスト観点化 プロセス・画像データのインスペクション・AI×QAのトレンド調査・巨大PJのデータ量の壁・AIリラン キング・チャンクサイズの最適化・AIがインスペクションをする構造・AI思考をマインドマッピング出 力・コメントがAIのノイズ・ロゴ決定・議事録は仕様と出来ない・リバースエンジニアリングの是非・仕 様書を強化するために・AI導入のファーストペンギン・コスト効果の方程式・導入支援準備・アクセ ス権者の承認・ディシジョンテーブル・シナリオテスト・機能テストの導入・スクリプトテストのロード マップ・テスト結果のAIセルフチェック・再試行の成功率
全社を挙げた取り組み 4/4 AIオールイン AIジャーニー 品管AIジャーニー https://fullswing.dena.com/archives/100181/
SUBTITLE 今後
今後の品管 AIジャーニー AI I/F改善 テスト データ生成 需要予測 サービス 品質 標準テスト 観点強化 ペルソナ 市場障害 横展開 社会的品質 審査 損害金額 モデル テスト 自動化 テスト作成 スクリプト テスト 仕様書生成 プロダクト 品質分析 ドキュメント 品質分析 ドメイン 特化モデル アジャイル 対応 完全 アドホックテスト 横断部門は求めに応える 品質責任の 委譲
QA生産性の倍増は、サービスの倍増 既存サービス 新規サービス QAの生産性 倍増 新組織 開発の生産性 倍増 新しいサービスが増える楽しみ
どうぞお声がけください AI×品質管理 興味ある方、DeNA品管にお声がけを!
おわりに 得意な分野を言語化してAIを育て切ろう 今からでも遅くない、AIがたたき台作って人間がレビューと承認 AI時代は会社ナレッジの総力戦 より良きAI時代を!