-- Views
December 16, 25
スライド概要
2025-12-12にSEB(Sapporo Engineering Base)のバイブコーディングのLT回で発表したものです。
Codexについての自分のインプレッションを書いたスライドです。
非常に差分に強く最近は構造化データ外さないなと思ってはいたものの、その根拠もわからなかったのでインプレッションを語るとともにモデルの開発の経緯を追って根拠づけました。
OpenAIにとってのCodexには実は複数の意味があります。一つは初の本格的コーディング向け強化学習モデルとしてもう一つはCLIとして、そしてコーディング向けのバリエーションとして。
モデルの起源を知ると曖昧な存在だったGPTモデルが信頼できる相棒になるのでぜひみてください。
※Speckitや細かいCodexの使い方は詰め込めきれなかったので別の機会に書きます
Codexについて コントローラブルなバイブコーディングを支えるモデルとCLI 株式会社 エーピーコミュニケーションズ 大久保直紀 1
大久保直紀 ‣ ロール:バックエンド寄りの何でも屋 最近の業務:エージェントアプリケーションの企 ‣ 画、設計、開発 ‣ 好きな技術:LangChainバンザイ! ‣ 趣味:自転車、食べ歩き 年齢:39歳 ‣ ‣ 所属:株式会社エーピーコミュニケーションズ 大富豪プログラミング万歳!
Codexへの個人的な気持ち 私にとってCodexは最初から手触りが良かった。それは自分の設計・設定した文 脈に従ってそれを破綻させずに二人三脚で寄り添ってくれるフィードバック感を使 ってる中で感じていたから。 GPT-5系が登場して触ってから今まで使っていたChatGPTの延長線のアイデア出 ししながら実装するスタイルがそのままワークスペースでできており、尚且つモデ ルが良くなる程精度が良くなる。 これは人間から始まる設計・開発を支えてくれるまさにCopilotであった。 プロダクト開発を一人で続ける中で、フロント/バックエンド/インフラ、企画のア イデア出しに至るまでCodexやOpenAI無しでは切り抜けることはできなかった。 自分は開発者生活でずっとOpenAIを使い続けるだろう。 3
Codexとは? ‣ OpenAI謹製CLI(2024) ‣ GPT-5系のコーディング向けモデルGPT-5-codex(2025) ‣ コーディング向けのファインチューニング実験モデル(2021) 三つもあるということはOpenAIにとって重要なワード 4
始まりのCodexについて
OpenAIのモデル開発年表 ‣ 2018:GPT-1, GPT-2 初の自己回帰モデル、スケーリングによる性能改善 ‣ 2020:GPT-3(175B)特化データによる事後学習による性能向上の発見 ‣ 2021:OpenAI Codex ‣ OpenAI初のコーディング特化モデル、Github Copilot Previewにも(12B) ‣ HumanEval、pass@n等評価基準、追加 SFTによる性能向上 ‣ 2022:GPT-3.5 特化型の学習を自然言語にも適応、ChatGPTの誕生へ ‣ 2023:GPT-4の登場 pass@1 67%, GPT-4Vによる簡易マルチモーダル ‣ 2024:GPT-4o、4.1の登場 end to endのマルチモーダル ‣ 2025:GPT-5系登場、コーディング向けのGPT-5-codexシリーズ登場 6
始まりのCodex 始まりのCodexは、GPT-3で得られた特化学習によって性能が飛躍 的に向上するという示唆から、 「大量の公開コードを学習させるとどこまで“プログラムを書ける モデル”になるか」の研究から生まれたモデル。 DocstringからPython関数を生成する問題を164問出して正解率を GPT-3、GPT-J(6B)と比較して実験をしていた。 7
2021: Codex benchmark pass@k 成功数/思考数 Codex-12B GPT-3 GPT-J 6B pass@1 28.81% 0% 11.62% pass@10 46.81% - 15.74% pass@100 72.31% - 27.74% 試行数・専門知識で 成果がスケールする パラメータにない知識は 対応できない 8 8%程度のコード知識だと 投入したなりの成果
temperture vs pass@k 確率の低いトークンを選択肢に 入れるとpass@kが向上する tempertureは0.8がスイートスポ ット 9
Sample Ranking Heuristics コード生成結果をアルゴリズムで ランキングすると正答率が上が る。 Oracle: 単体テストが通った回答 Mean logp: 文脈としての対数演 算で全体で統計的に正しそうな回 答 ランダム:ランキング付けしない 10
Codexから始まった本格FIMによる差分編集 ‣ テキスト/コードの 中間欠損部(middle)を補完する生成タス ‣ FIMとは文章の穴埋め能力を習得するための学習方法 ク ‣ コード構造(AST)や依存関係を 双方向から再構成できる ‣ 差分編集・構文修復・長距離依存に強くなる技術であり、Codex ‣ pre x + su x の両方を条件として利用 以降一貫してOpenAIはFIMによる大規模学習を公表している ffi fi 11
Codexから始まった本格FIMによる差分編集 ‣ 他のモデルもFIMやそれに近しい学習はしているが、GPTモデル のように木構造を扱うことを中心としたモデル設計ではない。 ‣ Claudeは CAIとして統一的なルールの下で意味を中心に一貫性 を保っており文章の構造はファーストではない。 ‣ Geminiもマルチモーダルファーストであるため、各モーダルが意 味するところの統合に力点を置かれている。 ‣ 各モデルのStructured Outputの精度やnestされたデータの生成 制度も含めて外形的にそうだと予測される。 12
Text to Text 構造化データのモデル比較 GPT-5(Strict) Gemini Claude Structured Output Veryhigh High High Nested data Veryhigh Medium high High 100%のStructuredOutput 設計上の特徴通り マルチモーダルからの構造化 はナンバーワン 13 意味の一貫性が最強だが たまにごくズレるらしい
「コード差分を埋めるのに設計上 強い」
Benchmark Codex pass@n 2021 成功数/思考数 Codex-12B GPT-3 GPT-J 6B pass@1 28.81% 0% 11.62% pass@10 46.81% - 15.74% pass@100 72.31% - 27.74% 試行数・専門知識で 成果がスケールする パラメータにない知識は 対応できない 15 8%程度のコード知識だと 投入したなりの成果
Codex CLIについて
Codex CLIとは? ‣ Rust製のコーディングAgent CLI ‣ con g.tomlとAgent.mdのファイルの中で制御 ‣ 指定したディレクトリでの承認内容 ‣ Agent.mdやspeckitによるポリシー制御 ‣ SlackやGithub ActionsなどのSaaSインテグレーションはCLIとしては存在 しない ‣ 少人数で探索しながらやっていくスタイルには合っているらしい fi 17
Codex CLIとは? ‣ Rust製のコーディングAgent CLI ‣ con g.tomlとAgent.mdのファイルの中で制御 ‣ 指定したディレクトリでの承認内容 ‣ Agent.mdやspeckitによるポリシー制御 ‣ SlackやGithub ActionsなどのSaaSインテグレーションはCLIとしては存在 しない ‣ 少人数で探索しながらやっていくスタイルには合っているらしい fi 18
私の使い方:使い始めたきっかけ マルチエージェントアプリケーションの開発案件 プロジェクト始まる コードベースが なかった コードベース導入 POINT:コードベースがある状態で開発が始まった 結果的にOpenAI向けの 19 既存コードを拡張 Codexで拡張
私の使い方:基本的なフロー マルチエージェントアプリケーションの設計開発: アイデア・想定範囲 を伝える 当該箇所を調べる 設計案を出す POINT: Agent.mdもSpeckitも使ってないので、 自分の意図で実装してくれる 20 納得/意見 生成 ドキュメント更新 discussion.md readme.md 更新依頼
私の使い方:振り返り ‣ 一人でフロントエンド、バックエンド、インフラを設計しながら実装してい たが破綻なく実装改修ができた。GPT-5.1ではっきり実力が変わった。 ‣ 自分がやりたい設計やアイデアに対して忠実に動いてくれる感覚があって、 あーそれそれって感じでコードを生成してくれる。 ‣ 前編のモデルの特性でも語られたのですが、型に強いので差分修正がやっぱ り強く大規模な書き直しは発生しない。 ‣ ADR(設計意思決定の記録)として対話内容を雑に残しておくと、コードリフ ァクタの際にどこになんのファイルを責務として分割するかなどかなり気の 利いた実装してくれるので、対話的に自分の能力が伸びている感覚がある。 ‣ SpeckitとAgent.mdをこれから作るのが楽しみ!! 21
「バックエンドエンジニアの最高 の相棒Codex」
‣ 始まりのCodex ‣ Codex論文:Evaluating Large Language Models Trained on Code 23