Article

【codex最新モデル】gpt-5.3-codex登場：何が変わったのか？設定すべき？徹底解説（2026年2月）

2026-02-11 AI駆動開発

監修者

ライト

情報系学部出身。新卒でコンサル系SaaS開発部門→社内開発とSaaS開発を掛け持ち。GPT-3.5 Turbo時代からAIを活用し、ChatGPT/Gemini/Claude/GitHub Copilot/Cursorなどを使っています。

一覧へ戻る Xでシェア

【codex最新モデル】gpt-5.3-codex登場：現役エンジニアが実際に触ってみた（2026年2月）

はじめに

codexモデルに新しい仲間が増えました。「gpt-5.3-codex」です。今回、実際にこのcodexモデルと既存モデルを動かしてみて、どんな違いがあるのかを比べてみました。参考になると嬉しいです。

Codex付きモデルが得意なこと

Codex付きモデルは、既存コードを読んで状況を理解して、変更方針を立てて、実装〜検証まで進めるのが強みです。長文の自然言語を大量に書かせるより、差分・手順・実装タスクみたいな「行動に直結する出力」を前提にすると性能が引き出しやすいタイプです。

既存コードの読解（依存関係・意図・副作用の把握）
変更点の設計（どのファイルをどう直すかの具体化）
実装・リファクタ・テスト追加といった作業遂行
保守しやすい堅めのコード生成（安全寄りの判断込み）

GPT-5.2（汎用）が得意なこと

GPT-5.2は、自然言語の理解と整理に長けています。曖昧な要件を合意可能な仕様に落とすことに特化しており、文章主体（企画・仕様・レビュー・ドキュメント）で扱いやすいのが特徴です。もちろんコーディングも十分できますが、特に強いのは「言語化して前に進める」その部分です。

仕様の言語化（曖昧さの発見、前提の補完、用語統一）
要点整理（論点分解、優先度付け、結論の明確化）
レビュー観点の列挙（チェックリスト化、抜け漏れ防止）
文章の整形（読みやすさ、構造、トーンの調整）
調査のたたき台作り（評価軸の設計、比較・選定理由の言語化）

ここが論点：「自然言語の指示駆動開発」はどちらが有利か

意図理解（曖昧さを補えるか）
指示追従（制約・優先度・出力形式を守れるか）
収束性（追加指示の回数が減るか）

OpenAIが語る gpt-5.3-codex の変化点

何が強い？（能力の方向性）

OpenAIの説明によると、5.3-Codexは「単にコードを書く」よりも、コーディング＋ターミナル操作＋実世界タスクをまとめて高い精度でこなす方向に振ってきたようです。

ブログ側では、主に次の4系統の評価で強みが示されています。

SWE-Bench Pro：実務寄り・複数言語の厳密評価
Terminal-Bench 2.0：ターミナル操作を含むエージェント能力
OSWorld-Verified：OS操作系の実世界タスク
GDPval：職種横断の知識労働タスク（資料・表計算など成果物作成も含む）

発表ページの付録に掲載されている代表スコアは以下。

SWE-Bench Pro（公開版）：56.8%
Terminal-Bench 2.0：77.3%
OSWorld-Verified：64.7%
GDPval（勝利・引き分け）：70.9%

「コードを書く」を越えて、開発ライフサイクル全体を狙う

もう1つ注目すべき点は、支援対象が実装そのものだけではないと明記されていることです。

デバッグ／デプロイ／監視／PRD作成／コピー編集／ユーザーリサーチ／テスト／メトリクス管理など、ソフトウェア開発の周辺業務まで含めて「開発ライフサイクル全体」を支援する位置づけになっています。さらに、スライド作成やスプレッドシート分析のような成果物作成も支援対象に組み込まれています。

25%高速化が効く作業

体感として効くのは、往復回数が多いタスク（調査→修正→テスト→PR など）
速度改善は「1回の生成が速い」だけでなく、待ち時間の総和が減るタイプの作業ほど効果的です（例：CI失敗の原因追跡→修正→再実行）

ベンチの伸びから見える方向性

SWE系より、Terminal/OS操作系が強く伸びている
「実行込みで完了」に寄せた改善の可能性が高い

安全設計（運用に直結する部分だけ）

隔離実行／ネットワーク制御が前提
チームで揉めやすいのは「外部通信」「認証情報」「書き込み操作」

安全面は「思想」よりも、運用で事故が起きるポイントを先に塞ぐのが重要です。

ネットワーク：デフォルト遮断 + allowlist（必要なドメインだけ許可）にすると、事故の範囲が限定される
認証情報：短命トークン、最小権限、ログ/プロンプトへの露出を避ける（扱いルールの明文化が優先）
書き込み：コミット/プッシュ/デプロイ等は「人のゲート」を挟む（少なくとも最初は）

実際に使ってみた：スクラムタスクアプリで比較

「自然言語の指示駆動開発」における各モデルの実力を測るため、スクラム寄りのタスク管理アプリを題材に、要件定義→実装の流れで比較検証してみました。

検証内容

タスク1：要件定義ドキュメントの作成


アジャイル寄りな内容のタスクアプリを作りたい

まず一般的なスクラムのやり方をまとめその上でタスク管理にどんな機能が必要なのかまとめてmdを作って

タスク2：実装


mdの内容で実装をしてください

docker + next.js + sqliteの構成でアプリを作り切って欲しいです

※ toolのwebsearchは有効化しています

要件定義：各モデルの出力を比較

Codex 5.2 の出力

箇条書きベースで機能要件に特化した構成になっています。エンジニア目線では「必要なことは網羅されている」という印象ですが、ドキュメントとしては機械的です。

特徴

スクラムの役割・イベント・成果物を端的に列挙
必要機能を10項目で整理（バックログ管理、スプリント管理、タスクボード…）
目的・背景・ユースケースの記述がほぼなし

所感

「仕様を見ての要件だけ」という印象です。エンジニア同士で共有するには使えますが、ステークホルダーへの説明や合意形成には向きません。ドキュメントとしての「読み物」感が弱く、「仕様を箇条書きで固めた」という冷たさが残ります。

GPT-5.2 の出力

目的・背景から書き起こして、透明性・検査・適応の思想を明示した構成です。ドキュメントとしての完成度が高く、読み手を想定した構造になっています。

特徴

スクラムの目的（「なぜ」）から説明
役割・成果物・イベントに「実務での意味」を併記
MVPと拡張機能を明確に分離
指標の使い方に注意書き（「個人評価や数値目標化には向きません」）

所感

目的・背景がちゃんと書かれているため、後から見返したときに「なぜこの機能が必要か」が理解できます。文章の流れも自然で、ドキュメントとして完成度が高い点が特徴です。

Codex 5.3 の出力

GPT-5.2とCodex 5.2の中間を取ったような構成になっています。目的は記載されていますが、出力形式は依然として箇条書き中心でエンジニア寄りです。

特徴

目的・ロール・イベントの説明はあり（GPT-5.2寄り）
箇条書き・見出し構造はエンジニア的（Codex 5.2寄り）
実務フロー・補足が充実

所感

5.2（GPT）に近づこうとしている方向性は感じられます。目的や背景をまとめるようになった点は進化ですが、文章の読みやすさやトーンは依然として「仕様書」寄りです。ドキュメント作成には、GPT-5.2の方が向いています。

実装：UI/UXで見る各モデルの設計思想

Codex 5.2 の成果物

必要な機能を実装して動作させるという点では合格水準です。ただし、デザインやユーザー体験への配慮はやや限定的な印象です。

特徴

機能性：必要最小限の実装は完了
見た目：目立つ色味（オレンジ/ブラウン系）が特徴的
UI構成：シンプルで、端的な作り

所感

動作するものは実装できていますが、デザイン面では独特の色調を選びやすい傾向があります。UI/UXの洗練度ではGPT-5.2に一歩譲る印象です。

スプリント作成画面。オレンジ/ブラウン系の配色が特徴的

バックログ管理画面。機能は揃っているが、デザインは機能最小限

Codex 5.3 の成果物

情報を詰め込もうとする意欲は伝わりますが、一画面に多くの要素が集約され、レイアウトが崩れる箇所が見られました。

特徴

一画面に多機能を詰め込む傾向
レイアウト崩れやCSS調整不足が散見
情報密度は高いが、操作性とのトレードオフが見える

所感

機能充実への意欲は感じられますが、情報設計まで対応しきれていません。UIの整理が追いついていない状態です。

バックログ画面。

GPT-5.2 の成果物

デザインセンスと使いやすさが際立ちます。モーダル・ボタン配置・コンポーネント分割など、UI設計の判断が一貫して適切です。

特徴

プラスボタンでモーダル表示→追加フォームを分離
視覚的な情報整理が優れている（カード、余白、階層）
デザイン：現代的で洗練された印象

所感

UI設計のセンスが明らかに高く、操作性を意識したコンポーネント分割ができています。デザイン面ではGPT-5.2が頭一つ抜けている点が顕著です。

ダッシュボード画面。カード型UIで情報が整理されている

バックログ画面。プラスボタンでモーダルを開いて、追加フォームを表示する設計

PBI詳細画面。視覚的な階層構造とコメント履歴が見やすい

追加検証：要件を統一して再実行

「Codex 5.3/5.2がGPT-5.2の要件で実装したらどうなるか？」を確認するため、GPT-5.2の要件mdを使って再実行してみました。

結果

Codex 5.2：相変わらずオレンジ/ブラウン系の色味。UIは基本的に変わらず
Codex 5.3：緑系の配色に変わりましたが、操作性の改善は見られず

結論

要件の質を揃えても、UI設計の判断はモデル固有の特性に大きく依存することが分かりました。GPT-5.2は「UI設計を内部で組み立てる段階」で優れた判断をしており、最終的な成果物の質が高くなっているように見えます。

> 注記：ここでの「UI/UXの評価」は、筆者が判断したものです。あくまで参考程度で捉えていただければと思います。

検証のまとめ

観点	Codex 5.2	Codex 5.3	GPT-5.2
要件定義	箇条書き中心、背景なし	中間（背景あり、箇条書き）	背景・目的・構造が明確
ドキュメント品質	✗ エンジニア向け仕様書	△ 改善はあるが硬い	○ 読み物として完成度高
実装（機能）	○ 最小限は動作	○ 動作、情報密度高	○ 動作、洗練
UI/UX設計	△ 機械的、独特の色味	△ 詰め込みすぎ、崩れあり	◎ 設計センス・操作性が優秀
自然言語指示の理解	△ 機能要件への変換は正確	△ 改善はあるが直線的	○ 意図・背景を補完して整理

Webアプリ開発においてはGPT-5.2が適切な選択肢

本検証の範囲では、以下の特徴が観察されました。

要件定義フェーズ：GPT-5.2が背景・目的を補完し、読みやすいドキュメントを作成
実装フェーズ（UI/UX重視）：GPT-5.2がデザインセンス・コンポーネント設計で優位
実装フェーズ（ロジック/改修重視）：Codex 5.3が既存コード解析・差分実装で有利になる可能性がある

「文章で仕様を固めて、UIを含めて実装する」Webアプリケーション開発においては、現時点ではGPT-5.2が安定した成果を出しやすいと考えられます。

用途による選択指針

開発内容	推奨モデル	理由
Webアプリ開発（要件→UI/UX→実装）	GPT-5.2	要件整理・UI設計の面で優位
既存コード改修（複雑ロジック・多ファイル）	Codex 5.3の検討価値	コード解析・差分実装に特化
ロジック主体開発（データ処理・API等）	実装試行で判断	内容次第で適性が変わる

最適なモデル選択はプロジェクトの性質に左右されます。プロジェクト要件に基づいて、複数モデルの試用を検討することをお勧めします。

この記事は役に立ちましたか？

皆様のフィードバックが、より良いコンテンツ制作の励みになります。