Codexについて

649 Views

December 16, 25

#openai #codex #Codex #OpenAI #コーディング #CLI #AI開発

スライド概要

2025-12-12にSEB(Sapporo Engineering Base)のバイブコーディングのLT回で発表したものです。

Codexについての自分のインプレッションを書いたスライドです。
非常に差分に強く最近は構造化データ外さないなと思ってはいたものの、その根拠もわからなかったのでインプレッションを語るとともにモデルの開発の経緯を追って根拠づけました。

OpenAIにとってのCodexには実は複数の意味があります。一つは初の本格的コーディング向け強化学習モデルとしてもう一つはCLIとして、そしてコーディング向けのバリエーションとして。

モデルの起源を知ると曖昧な存在だったGPTモデルが信頼できる相棒になるのでぜひみてください。

※Speckitや細かいCodexの使い方は詰め込めきれなかったので別の機会に書きます

n_okubo

@n_okubo

スライド一覧

札幌市在住のアプリケーションエンジニアです。Azureとアプリケーション開発についての勉強会スライドを公開しております。内容は個人活動によるもので、所属組織や公式見解ではありません。内容についてのご指摘等ございましたら、twitterなどでご連絡いただけると幸いです。 bio: application developer, Java, python, typescript. concern at agentic app and Local LLM. opinion is on my own.

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

LangGraphの設計で悩んだこと_2025_08_23_JMLT

llm lanngraph langchain architecutre アーキテクチャ

n_okubo 586

エージェント開発のAIワークフロー

codex 札幌 agent エージェントシステム開発 llm arize phoenix クラウドネイティブ lanngraph

n_okubo 437

第一回 Jazug_Sapporo rebootイベント「ゆるいAzure Functions」

札幌 azure azure functions

n_okubo 236

猫でも分かるUnreal Engineの学び方 - 超初心者向け編 - 2023 v1.0

ue4 ue5 ue-beginner

エピックゲームズジャパン 1.7M

Unreal Engine5 Lumenの仕組みと肝心なところ

ue5 ue-rendering ue-lumen

エピックゲームズジャパン 1.4M

UE5レンダリングフロー総おさらい(2024) 基礎編！[CEDEC+KYUSHU 2024]

ue5 unreal engine ue-rendering

エピックゲームズジャパン 1.2M

各ページのテキスト

Codexについてコントローラブルなバイブコーディングを支えるモデルとCLI 株式会社エーピーコミュニケーションズ大久保直紀 1

大久保直紀 ‣ ロール：バックエンド寄りの何でも屋最近の業務：エージェントアプリケーションの企 ‣ 画、設計、開発 ‣ 好きな技術：LangChainバンザイ！ ‣ 趣味：自転車、食べ歩き年齢：３９歳 ‣ ‣ 所属：株式会社エーピーコミュニケーションズ大富豪プログラミング万歳！

Codexへの個人的な気持ち私にとってCodexは最初から手触りが良かった。それは自分の設計・設定した文脈に従ってそれを破綻させずに二人三脚で寄り添ってくれるフィードバック感を使ってる中で感じていたから。 GPT-5系が登場して触ってから今まで使っていたChatGPTの延長線のアイデア出ししながら実装するスタイルがそのままワークスペースでできており、尚且つモデルが良くなる程精度が良くなる。これは人間から始まる設計・開発を支えてくれるまさにCopilotであった。プロダクト開発を一人で続ける中で、フロント/バックエンド/インフラ、企画のアイデア出しに至るまでCodexやOpenAI無しでは切り抜けることはできなかった。自分は開発者生活でずっとOpenAIを使い続けるだろう。 3

Codexとは？ ‣ OpenAI謹製CLI(2024) ‣ GPT-5系のコーディング向けモデルGPT-5-codex(2025) ‣ コーディング向けのファインチューニング実験モデル(2021) 三つもあるということはOpenAIにとって重要なワード 4

始まりのCodexについて

OpenAIのモデル開発年表 ‣ 2018：GPT-1, GPT-2 初の自己回帰モデル、スケーリングによる性能改善 ‣ 2020：GPT-3（175B）特化データによる事後学習による性能向上の発見 ‣ 2021：OpenAI Codex ‣ OpenAI初のコーディング特化モデル、Github Copilot Previewにも(12B) ‣ HumanEval、pass@n等評価基準、追加 SFTによる性能向上 ‣ 2022：GPT-3.5 特化型の学習を自然言語にも適応、ChatGPTの誕生へ ‣ 2023：GPT-4の登場 pass@1 67%, GPT-4Vによる簡易マルチモーダル ‣ 2024：GPT-4o、4.1の登場 end to endのマルチモーダル ‣ 2025：GPT-5系登場、コーディング向けのGPT-5-codexシリーズ登場 6

始まりのCodex 始まりのCodexは、GPT-3で得られた特化学習によって性能が飛躍的に向上するという示唆から、「大量の公開コードを学習させるとどこまで“プログラムを書けるモデル”になるか」の研究から生まれたモデル。 DocstringからPython関数を生成する問題を164問出して正解率を GPT-3、GPT-J(6B)と比較して実験をしていた。 7

2021: Codex benchmark pass@k 成功数/思考数 Codex-12B GPT-3 GPT-J 6B pass@1 28.81% 0% 11.62% pass@10 46.81% - 15.74% pass@100 72.31% - 27.74% 試行数・専門知識で成果がスケールするパラメータにない知識は対応できない 8 8%程度のコード知識だと投入したなりの成果

temperture vs pass@k 確率の低いトークンを選択肢に入れるとpass@kが向上する tempertureは0.8がスイートスポット 9

10.

Sample Ranking Heuristics コード生成結果をアルゴリズムでランキングすると正答率が上がる。 Oracle: 単体テストが通った回答 Mean logp: 文脈としての対数演算で全体で統計的に正しそうな回答ランダム：ランキング付けしない 10

11.

Codexから始まった本格FIMによる差分編集 ‣ テキスト／コードの中間欠損部（middle）を補完する生成タス ‣ FIMとは文章の穴埋め能力を習得するための学習方法ク ‣ コード構造（AST）や依存関係を双方向から再構成できる ‣ 差分編集・構文修復・長距離依存に強くなる技術であり、Codex ‣ pre x + su x の両方を条件として利用以降一貫してOpenAIはFIMによる大規模学習を公表している ffi fi 11

12.

Codexから始まった本格FIMによる差分編集 ‣ 他のモデルもFIMやそれに近しい学習はしているが、GPTモデルのように木構造を扱うことを中心としたモデル設計ではない。 ‣ Claudeは CAIとして統一的なルールの下で意味を中心に一貫性を保っており文章の構造はファーストではない。 ‣ Geminiもマルチモーダルファーストであるため、各モーダルが意味するところの統合に力点を置かれている。 ‣ 各モデルのStructured Outputの精度やnestされたデータの生成制度も含めて外形的にそうだと予測される。 12

13.

Text to Text 構造化データのモデル比較 GPT-5(Strict) Gemini Claude Structured Output Veryhigh High High Nested data Veryhigh Medium high High 100%のStructuredOutput 設計上の特徴通りマルチモーダルからの構造化はナンバーワン 13 意味の一貫性が最強だがたまにごくズレるらしい

14.

「コード差分を埋めるのに設計上強い」

15.

Benchmark Codex pass@n 2021 成功数/思考数 Codex-12B GPT-3 GPT-J 6B pass@1 28.81% 0% 11.62% pass@10 46.81% - 15.74% pass@100 72.31% - 27.74% 試行数・専門知識で成果がスケールするパラメータにない知識は対応できない 15 8%程度のコード知識だと投入したなりの成果

16.

Codex CLIについて

17.

Codex CLIとは？ ‣ Rust製のコーディングAgent CLI ‣ con g.tomlとAgent.mdのファイルの中で制御 ‣ 指定したディレクトリでの承認内容 ‣ Agent.mdやspeckitによるポリシー制御 ‣ SlackやGithub ActionsなどのSaaSインテグレーションはCLIとしては存在しない ‣ 少人数で探索しながらやっていくスタイルには合っているらしい fi 17

18.

19.

私の使い方：使い始めたきっかけマルチエージェントアプリケーションの開発案件プロジェクト始まるコードベースがなかったコードベース導入 POINT:コードベースがある状態で開発が始まった結果的にOpenAI向けの 19 既存コードを拡張 Codexで拡張

20.

私の使い方：基本的なフローマルチエージェントアプリケーションの設計開発：アイデア・想定範囲を伝える当該箇所を調べる設計案を出す POINT: Agent.mdもSpeckitも使ってないので、自分の意図で実装してくれる 20 納得/意見生成ドキュメント更新 discussion.md readme.md 更新依頼

21.

私の使い方：振り返り ‣ 一人でフロントエンド、バックエンド、インフラを設計しながら実装していたが破綻なく実装改修ができた。GPT-5.1ではっきり実力が変わった。 ‣ 自分がやりたい設計やアイデアに対して忠実に動いてくれる感覚があって、あーそれそれって感じでコードを生成してくれる。 ‣ 前編のモデルの特性でも語られたのですが、型に強いので差分修正がやっぱり強く大規模な書き直しは発生しない。 ‣ ADR(設計意思決定の記録)として対話内容を雑に残しておくと、コードリファクタの際にどこになんのファイルを責務として分割するかなどかなり気の利いた実装してくれるので、対話的に自分の能力が伸びている感覚がある。 ‣ SpeckitとAgent.mdをこれから作るのが楽しみ！！ 21

22.

「バックエンドエンジニアの最高の相棒Codex」

23.

‣ 始まりのCodex ‣ Codex論文：Evaluating Large Language Models Trained on Code 23

https://arxiv.org/pdf/2107.03374