コードレビューを6段階にしたら、AIと人間の分業が見えた

291 Views

June 11, 26

#コードレビュー #claudecode #生成ai #ci #AIコードレビュー #開発プロセス #エンジニアリング #ソフトウェア開発

スライド概要

AIにコードレビューをどこまで任せ、どこから人間がやるべきか。Format・Lint・Style・Logic・Design・Architecture の6段階に分けると、その境界がはっきりします。

このスライドは、6段階それぞれでAIと人間の比率がどう変わるか、最も危険な段階はどこかを12枚にまとめた要約版です。境界の引き方は直感と逆になりがち、という落とし穴も扱います。

仕組み化の全体像（hooks・AI・人間の3層モデル）は関連書籍にまとめています。

▼関連書籍『AIコードレビューを仕組み化する技術』Zenn Book（¥1,000）
https://zenn.dev/kenimo49/books/harness-code-review

▼Kindle版
https://www.amazon.co.jp/dp/B0GHT7FQ7G

著者: ken imoto / kenimoto.dev

井本賢

@kenimo49

スライド一覧

Propel-Lab代表。WebRTC・音声AIのエンジニアをやりながら、LLMを仕事の戦力にするための設計を研究しています。中心テーマは「ハーネス・エンジニアリング」——AIの成果はモデルそのものより、その外側の環境（制約・フィードバック・ツール）で決まる、という考え方です。これとContext Engineering、AIコードレビューの自動化などをZennとKindleで本にしてきました。ここには各本の要点をスライドにまとめて置いていきます。詳しくは kenimoto.dev へ。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

AIコードレビューを仕組み化する ― hooks・AI・人間の3層モデル

コードレビュー claudecode coderabbit hooks aiエージェント生成ai

井本賢 12.4K

コードレビュー指摘300件を3ヶ月分類したら効いていたのは2種類だけだった ─ Bug/Spec死守・残り4種類はPRから外す

コードレビューハーネスエンジニアリング aiコードレビュー開発生産性メトリクス conventionalcomments

井本賢 8.5K

cpu-moeで満足するな — Qwen 35Bをさらに速くする3フラグ実測 (RTX 4070)

ローカルllm llama.cpp rtx4070 qwen 生成ai

井本賢 3K

1Passwordが渡していない2つのもの ― マスターパスワードと、チーム共有鍵

セキュリティ 1password 暗号認証 srp パスワード管理 contextengineering

井本賢 2.6K

9Bが死んで35Bが動く — RTX 4070でQwen 3.5を全モデル検証

ローカルllm qwen gpu ollama 生成ai

井本賢 2.5K

もうプロンプトは書かない、ループを書く ― Claude Code作者とOpenClaw作者が辿り着いた /goal と /loop

claudecode aiエージェント生成ai 自動化 llm ハーネスエンジニアリング contextengineering

井本賢 2.3K

各ページのテキスト

AIコードレビュー AIと人間の境界線を引くコードレビューを6段階に分ける ken imoto エンジニア / Propel-lab AIコードレビューを “仕組み化する技術” レビュー工数を60%削減した実践設計 KEN IMOTO AI時代のコードレビュー設計、決定版 AIコードレビュー kenimoto.dev

3つのバグを通した CodeRabbit も Copilot も指摘せず、私も「AIが見たから大丈夫」とApproveを押した。 BUG 01 エッジケースの判定漏れ BUG 02 空配列の扱いミス BUG 03 外部APIのリトライ条件のずれ気づいたのはリリースの3日後。怖かったのは「自分のレビュー判断が信用できなくなった」感覚だった。 AIコードレビュー 02 kenimoto.dev

3層モデルでは粒度が粗い 3層だとLogic層に全責任が押しつけられる。6段階に切り直すと境界が見えた。 3層モデル設計図誰が何を見るか大きな構造の分業 6段階設計図の寸法境界はどこで切れるかもう一段細かい解像度 AIコードレビュー 03 kenimoto.dev

6段階の定義下に行くほどAI比率が段階的に下がる。 1 Format AI 100% / 人 0% 2 Lint AI 100% / 人 0% 3 Style AI 90% / 人 10% 4 Logic AI 60% / 人 40% 5 Design AI 30% / 人 70% 6 Architecture AI 0% / 人 100% AIコードレビュー 04 kenimoto.dev

AIが降りるのではない問題の性質が変わっていくのだ、と捉えると整理しやすい。 STAGE 1 - Format 正解があるインデント、改行、セミコロン。機械的に一意に決まる。 STAGE 6 - Architecture 正解がないシステム境界、データフロー。未来予想であって正解ではない。下に行くほど正解が一意でなくなる。だからAIの出る幕が段階的に減っていく。 AIコードレビュー 05 kenimoto.dev

段階1-2: Format / Lint 「PRにすら到達させない層」。人間の判断は1ミリも要らない。 Format AI 100% 見た目の規約。壊れても動く。 pre-commit hook / Prettier Lint AI 100% 意味の規約。壊れたら動かない。 ESLint / Ruff / mypy / tsc この2段階を分けて hooks で固め、毎週30分の指摘時間を構造的にゼロにした。 AIコードレビュー 06 kenimoto.dev

段階3: Style(90% AI / 10% 人間) 命名・分割粒度・可読性。CodeRabbitとCopilotが得意だが完全自動化はできない。 90% AIが指摘を出す CodeRabbit / Copilot が候補を提示。 10% 人間が最終承認「この提案は採用、これは却下」を判断。却下理由を一行残すと次のAI精度が上がる。 getUserData を fetchUser に変えるべきかはコードベース全体の命名規則を見ないと決まらない。 AIコードレビュー 07 kenimoto.dev

段階4: Logic - 一番危ない場所バグ検出精度のベンチマーク。半分以上は見逃すと思っておくのが安全。 48% Macroscope 46% CodeRabbit 42% Cursor BugBot 24% Greptile 私が通した3バグは全部「仕様書由来のエッジケース」。仕様を見ないAIは、コードベース内の整合性しか見られない。 AIコードレビュー 08 kenimoto.dev

境界の引き方が逆になりがち「AIが問題なしと言った」は、人間がスキップする理由にならない。 AIが指摘した部分はAIに任せ、 AIが指摘しなかった部分こそ人間が念入りに見る。 AIコメントが多いPR 人間レビューは短く済む。 AIコメントがゼロのPR 仕様書を開いて30分かけて読む価値がある。 AIコードレビュー 09 kenimoto.dev

10.

段階5-6: Design / Architecture ここはAIの出る幕が一気に減る。方向性の判断は人間の領域。 Design AI 30% / 人間 70% 責務分割・API境界・依存の向き。AIはパターンを増やすか減らすかを判断できない。効くのは2人ペアレビュー。 Architecture AI 0% / 人間 100% 判断は「正解」ではなく「未来予想」。PRの前に ADRを書き、テックリードが30分議論する設計会議。 AIコードレビュー 10 kenimoto.dev

11.

チーム導入のステップいきなり6段階を全部入れると挫折する。現実的な順序がある。 1 Stage 1-2 を hooks で固める 1日で終わる。即日効果が出る。 2 Stage 3 に CodeRabbit / Copilot 契約があれば無料。1週間慣らす。 3 Stage 4 のための仕様書整備一番時間がかかる。仕様由来のエッジケースを明文化。 4 Stage 5-6 はチーム文化にペアレビューとADR。仕組み化より習慣化。 AIコードレビュー 11 kenimoto.dev

12.

6段階の土台にある3層モデルを、仕組み化の全体像として体系化。 Zenn Book ¥1,000 zenn.dev/kenimo49/books/harness-code-review Kindle amazon.co.jp/dp/B0GHT7FQ7G 『AIコードレビューを仕組み化する技術』全15章。hooks・AI・人間の 3層モデルを実装レベルで解説。 kenimoto.dev AIコードレビュー 12 AIコードレビューを “仕組み化する技術” レビュー工数を60%削減した実践設計 KEN IMOTO AI時代のコードレビュー設計、決定版 kenimoto.dev