GPT-5.5とは？GPT-5.4 miniとの使い分け・AGENTS.md活用を実務目線で整理【2026年4月版】

GPT-5.5の使い分け

GPT-5.5は、GPT-5.4より少し賢いモデルというより、長い仕事を途中で切らさずに進めるためのモデルです。2026年4月26日時点のOpenAI公式情報をもとに、どの仕事でGPT-5.5を使い、どこではGPT-5.4 miniを残すべきかを整理します。

2026年4月23日にOpenAIがGPT-5.5を発表し、4月24日の更新でAPI提供も始まりました。更新幅は小さく見えても、実務上は「複雑な作業を少ない手戻りで最後まで運ぶ」方向の変化です。

一方で、API価格はGPT-5.4 miniより高いです。すべてのタスクをGPT-5.5に寄せると、品質より先にコストが重くなります。AI駆動開発では、AGENTS.mdで作業の前提を整えたうえで、設計と実装のモデルを分ける方が現実的です。

この記事で分かること

GPT-5.5の特徴とGPT-5.4との違い
ChatGPT、Codex、APIでの提供状況と料金
GPT-5.5を使うべき実務タスク、使わなくてよいタスク
AGENTS.mdを整えてGPT-5.4 miniに任せやすくする考え方
GPT-5.5向けにプロンプトをどう変えるべきか
導入前に見ておきたい注意点

2026年4月時点の結論

GPT-5.5は、複雑なコーディング、調査、資料作成、ツール操作のように、途中で考え直しながら進める仕事に向きます。日常の短い要約や、前提が整理された実装作業まで置き換える必要はありません。

実務では、GPT-5.5は失敗時の手戻りが大きい仕事に使うのが基本です。AGENTS.mdや設計メモが整っているなら、実装、軽微な修正、テスト追加はGPT-5.4 miniでも足りる場面が増えます。

やりたいこと	まず選ぶモデル・環境	理由
複数ファイルの実装、調査付きの改修、原因不明のバグ調査	GPT-5.5 / Codex	計画、ツール利用、検証、修正のループを回す仕事向きです。
重要な技術調査、長い資料の読み込み、複数資料からの判断材料作成	GPT-5.5 Thinking / ChatGPT	意図理解、情報整理、根拠付きのまとめで差が出ます。
さらに精度を優先したい難問、研究寄りの検討、時間をかけてよい分析	GPT-5.5 Pro	より多くの計算を使う代わりに、難しい問題で精度を狙う位置づけです。
AGENTS.mdが整った範囲での実装、テスト追加、軽微な修正	GPT-5.4 mini	作業境界と完了条件が明確なら、小型モデルでも回しやすいためです。
高頻度の要約、分類、定型文生成、短いFAQ回答	GPT-5.4 mini / GPT-5.4 nanoなど	小型モデルで十分なことが多いです。
既存APIのモデル名だけ差し替える移行	いったん検証環境で比較	ドロップイン置換にすると挙動差を見落としやすいです。

GPT-5.5は、常用する最上位モデルというより、仕事のまとまりを大きく渡す場面で使う方が合います。開発では、GPT-5.5で設計と作業分解を固め、実装フェーズをGPT-5.4 miniへ落とす使い方がコスト面でも時間面でも扱いやすいです。

GPT-5.5は何が変わったのか

GPT-5.5の変化は、単発回答の精度だけではありません。曖昧な依頼を受けて計画し、ツールを使い、検証し、成果物まで運ぶ力が強いです。GPT-5.4との差は、長い仕事ほど見えます。

OpenAIはGPT-5.5について、コーディング、オンライン調査、データ分析、文書・スプレッドシート作成、ソフトウェア操作、複数ツールをまたぐ作業を得意領域として説明しています。一問一答より、仕事のまとまりを渡す場面で使いやすいモデルです。

公式発表で示された主な評価結果を見ると、コーディング、業務、コンピュータ操作、ツール利用でGPT-5.4を上回っています。

評価	GPT-5.5	GPT-5.4	読み方
Terminal-Bench 2.0	82.7%	75.1%	コマンドラインでの複雑な作業、計画、反復、ツール連携の評価です。
SWE-Bench Pro	58.6%	57.7%	実際のGitHub課題解決に近い評価です。ただしOpenAIは、この種の評価には記憶の影響が指摘されていることも注記しています。
Expert-SWE	73.1%	68.5%	長時間の開発作業を想定したOpenAI内部評価です。
GDPval	84.9%	83.0%	44職種にまたがる知識労働タスクの評価です。
OSWorld-Verified	78.7%	75.0%	実際のコンピュータ環境を操作する能力の評価です。
BrowseComp	84.4%	82.7%	ブラウジングを含む情報探索・判断の評価です。

数字だけで「常にGPT-5.5が正解」とは言えません。ベンチマークは、自分の業務環境、入力データ、プロンプト、ツール設計、許容コストをそのまま再現するものではないからです。

それでも、方向性は分かりやすいです。GPT-5.5は、短い文章を少し上手に返すモデルというより、長いコンテキストを抱えたまま、作業の意図を保って前に進むモデルです。

この強みは、依頼、計画、ツール利用、検証、成果物化、レビューの流れで出ます。

提供状況と料金

2026年4月26日時点では、GPT-5.5はChatGPT、Codex、APIで使えます。ChatGPTとCodexは順次展開、APIは4月24日の更新で利用可能になりました。

提供状況は次の通りです。

利用場所	提供状況	実務上の見方
ChatGPT	GPT-5.5 ThinkingはPlus、Pro、Business、Enterprise向け。GPT-5.5 ProはPro、Business、Enterprise向け。	難しい調査、文章化、資料読み込み、判断材料づくりに使いやすいです。
Codex	Plus、Pro、Business、Enterprise、Edu、Goプランで利用可能。Codex上のGPT-5.5は400Kコンテキスト。Fast modeは生成速度1.5倍、コスト2.5倍。	コードベースを読ませて、実装、修正、検証まで進める用途に向きます。
API `gpt-5.5`	Responses APIとChat Completionsで利用可能。モデルページでは1,050,000コンテキスト、最大出力128,000トークン。	長文入力、ツール利用、マルチターン、業務アプリ組み込みの本命候補です。
API `gpt-5.5-pro`	Responses API向け。難しい問題では数分かかる場合があり、Background modeが推奨されています。	高精度が必要で、待ち時間を許容できる非同期タスク向けです。

API料金は、GPT-5.5を日常の全タスクに使うかどうかを決めるうえで重要です。

モデル	入力	キャッシュ入力	出力	補足
`gpt-5.5`	$5.00 / 100万トークン	$0.50 / 100万トークン	$30.00 / 100万トークン	272Kを超える入力では、標準・Batch・Flexのセッション全体で入力2倍、出力1.5倍の料金が適用されます。
`gpt-5.5-pro`	$30.00 / 100万トークン	なし	$180.00 / 100万トークン	より高精度を狙うモデルです。Streamingは非対応とされています。
`gpt-5.4`	$2.50 / 100万トークン	$0.25 / 100万トークン	$15.00 / 100万トークン	GPT-5.5より安く、複雑すぎない業務ではまだ候補に残ります。
`gpt-5.4-mini`	$0.75 / 100万トークン	$0.075 / 100万トークン	$4.50 / 100万トークン	高頻度処理や軽めのタスクで現実的です。

GPT-5.5はGPT-5.4の2倍、GPT-5.4 miniの約6.7倍の入力・出力単価です。OpenAIはGPT-5.5のトークン効率も強調していますが、実際の請求額はタスク設計で大きく変わります。長い資料を毎回丸ごと投げるより、キャッシュ、検索、ファイル検索、要約済みコンテキストを組み合わせる方が安定します。

開発文脈では、この差が効きます。設計、原因調査、レビューのように失敗時の手戻りが大きいところはGPT-5.5を使い、AGENTS.mdで前提が固まった実装作業はGPT-5.4 miniへ寄せる。これだけでも、AI駆動開発のコストは下げやすくなります。

GPT-5.5を使うべき仕事、使わなくてよい仕事

GPT-5.5を使う判断基準は、モデルの賢さではなく失敗コストです。手戻りが高い仕事ほどGPT-5.5、回数が多い定型処理ほど小型モデルを残すのが現実的です。

実務の切り分けは、次のように考えるとわかりやすいです。

仕事	GPT-5.5の優先度	理由
複数ファイルにまたがる実装、テスト追加、リファクタリング	高い	文脈保持、計画、ツール利用、検証のループが重要だからです。
原因がはっきりしない不具合調査	高い	ログ、コード、再現条件、仮説検証を行き来するため、単発回答では足りません。
長いPDFや複数資料からの調査メモ作成	高い	どの情報を根拠として扱うか、何を不確実と見るかの判断が必要です。
画面や画像を見ながらのUI改善、手順確認	中〜高	GPT-5.5は画像入力の扱いも改善されていますが、用途ごとに検証が必要です。
会議メモの短い要約	低い	低単価モデルでも十分なことが多いです。
定型メール、SNS文、短いFAQ回答	低い	品質差よりコスト差の方が効きやすいです。
分類、タグ付け、抽出の大量処理	低い	小型モデル、Structured Outputs、ルールベースを組み合わせた方が安い場合が多いです。

GPT-5.5の良さは、全部を丁寧にやってくれることではありません。目的、制約、成功条件を渡したときに、作業の進め方をある程度任せられることです。

反対に、何を出せばよいかが明確で、作業も短く、失敗時の修正が簡単なタスクでは、GPT-5.5を使う理由は弱くなります。モデル選びは、最高性能ではなくタスクの損益で決める方がぶれません。

AGENTS.mdを整えると、GPT-5.4 miniに任せられる範囲が広がる

AGENTS.mdは、AIに毎回すべてを考え直させないための作業地図です。設計判断はGPT-5.5に残しつつ、実装と検証の反復をGPT-5.4 miniへ寄せるなら、まずAGENTS.mdを整える必要があります。

OpenAIのCodexドキュメントでは、Codexは作業前にAGENTS.mdを読み、グローバル、プロジェクト、下位ディレクトリの順に指示を重ねると説明されています。OpenAIのHarness Engineeringの記事でも、巨大なAGENTS.mdを百科事典のように使うのではなく、docs/へ案内する目次として使う考え方が紹介されています。

この考え方は、モデルの使い分けにもそのまま効きます。GPT-5.5は曖昧な依頼を解釈して設計する力が強い一方、毎回そこに高い単価を払う必要はありません。作業境界、テストコマンド、参照すべき設計資料、完了条件がAGENTS.mdにあれば、実装フェーズは小型モデルでも迷いにくくなります。

フェーズ	向いているモデル	AGENTS.mdに書くこと
仕様の整理、影響範囲の洗い出し	GPT-5.5	参照すべき設計資料、判断時の優先順位、レビュー観点
実装タスクへの分解	GPT-5.5	変更してよい範囲、触ってはいけない領域、完了条件
既存パターンに沿った実装	GPT-5.4 mini	ディレクトリ構成、命名規則、よく使うコマンド
テスト追加、lint修正、軽微な不具合修正	GPT-5.4 mini	実行するテスト、失敗時に見るログ、報告形式
失敗原因が読めない調査、設計のやり直し	GPT-5.5	エスカレーション条件、判断に必要な資料

AGENTS.mdが効いている状態では、AIへの依頼が「このコードベースを理解して」から始まりません。すでに作業地図があるので、「この範囲で、既存方針に沿って、ここまで終わらせる」に変わります。ここまで落ちると、実装レベルの多くはGPT-5.4 miniで十分な場面が出てきます。

AGENTS.mdは長い説明書ではなく、参照先を示す地図にする

AGENTS.mdに全部を書くと、最初は安心できます。ただ、長くなるほど古いルール、重複した手順、今は使っていないコマンドが混ざります。AIはプロジェクトの中身を魔法のように把握しているわけではないので、古い地図を渡すと古い前提で動きます。

最初に入れるなら、このくらいで十分です。


AGENTS.md



Repository map:



- アプリ本体: `src/`

- テスト: `tests/`

- 設計メモ: `docs/design/`

- API仕様: `docs/api/`



Working rules:



- 実装前に関連する既存実装を確認する

- 既存の命名規則とディレクトリ構成に合わせる

- 新しい依存関係を追加する前に理由を説明する



Commands:



- 型チェック: `npm run typecheck`

- lint: `npm run lint`

- テスト: `npm test`



Done criteria:



- 変更内容を1段落で説明できる

- 関連テストが通っている

- 未確認のリスクがあれば最後に書く

重要なのは、AIに「全部ここで読め」と言わないことです。AGENTS.mdには入口とルールを書き、詳しい設計、仕様、運用判断はdocs/へ逃がします。これでGPT-5.5は設計時に深く読めますし、GPT-5.4 miniは実装時に必要な範囲だけを辿れます。

APIで使うならプロンプトは短く、成果条件を太くする

GPT-5.5向けのプロンプトは、細かい手順で縛るより、目的、成功条件、制約、根拠ルール、出力形式をはっきり書く方が合います。古いプロンプトは、そのまま持ち込む前に整理した方がよいです。

OpenAIのGPT-5.5ガイドも、gpt-5.2やgpt-5.4の単純な置き換えではなく、最小限のプロンプトから再調整することを勧めています。前のモデル向けに積み上げた念押しや手順の縛りが、GPT-5.5ではノイズになることがあるからです。

次のようなプロンプトは重くなりがちです。


まずAを確認してください。次にBを確認してください。その後Cを比較してください。

各ステップでは必ず3つの観点を使い、最後に表にしてください。

途中で分からないことがあれば...

GPT-5.5では、到達点と制約を先に書く方が扱いやすいです。


目的:

新機能の仕様案を、開発着手前のレビューに使える形へ整理する。



成功条件:

- ユーザー課題、対象外、主要フロー、例外処理、未決事項が分かる

- 実装前に確認すべきリスクが優先度順に並んでいる

- 不確実な点は推定として明記する



制約:

- 既存仕様と矛盾する案は採用しない

- 根拠がない断定はしない



出力:

1. 結論

2. 仕様案

3. リスク

4. 未決事項

5. 次に確認すること

APIで特に見直したいのは、次の5点です。

見直す項目	GPT-5.5での考え方
`reasoning.effort`	既定は`medium`です。速度が重要なら`low`を先に試し、`high`や`xhigh`は評価で効果が見えた場合に使います。
Responses API	推論、ツール利用、マルチターン、状態管理が絡む用途ではResponses APIを優先します。
Structured Outputs	JSONスキーマを長々とプロンプトに書くより、Structured Outputsで検証した方が安定します。
ツール説明	ツールごとの用途、入力、失敗時の扱い、副作用をツール説明側に寄せます。
評価方法	正確性、トークン消費、エンドツーエンドの待ち時間をGPT-5.4などと比較します。

GPT-5.5は、ただ「よく考えて」と渡しても安定しません。OpenAIのガイドでも、矛盾した指示や曖昧な停止条件があると、高い推論設定で過剰探索や品質低下が起きる可能性が示されています。先に目的と成功条件を整え、その上で推論設定を上げる順番が安全です。

ChatGPTとCodexでは、任せる単位を少し大きくする

ChatGPTやCodexでGPT-5.5を使うなら、短い質問を何度も投げるより、背景、目的、制約、検証条件をまとめて渡す方が結果が安定します。返答単位ではなく、作業単位で渡す方が合います。

ChatGPTでは、GPT-5.5 ThinkingやGPT-5.5 Proを、難しい調査や資料作成の相棒として使うのが自然です。複数の資料を読ませて、意思決定用の比較表、リスク、次の質問まで作らせるような使い方です。

Codexでは、差がさらに出ます。コードベースを読ませて、方針を立て、修正し、テストし、差分を説明する流れで使えます。ただし、毎回GPT-5.5に全部を任せるより、GPT-5.5で作った設計とAGENTS.mdを土台にして、実装の反復をGPT-5.4 miniへ寄せる方が運用しやすいです。

雑に「このバグ直して」だけでも動く場面はあります。ただ、実務では次のように、AGENTS.mdを前提にした渡し方にすると安定します。


目的:

ログイン後に設定画面へ遷移できない不具合を修正する。



期待する進め方:

- 関連するルーティング、認証状態、テストを確認する

- 原因を1つに決めつけず、再現条件を確認する

- 修正後に該当テストを実行する

- 既存のユーザー変更は戻さない



完了条件:

- 原因と修正内容が説明できる

- 関連テストが通る

- 追加で確認すべきリスクがあれば明記する

GPT-5.5を使うときほど、何を作るかより、何が揃えば完了かを書いた方が効きます。その完了条件をAGENTS.mdや設計メモへ残しておくと、次回以降はGPT-5.4 miniでも同じ流れを再利用しやすくなります。

導入前に注意したいこと

GPT-5.5は強いモデルですが、コスト、長文入力の課金、プロンプト移行、セーフガード、API機能差、AGENTS.mdの鮮度を見ずに本番へ入れると運用で詰まります。最初は限定タスクで比較するのが無難です。

注意点は大きく6つあります。

注意点	実務での影響
価格が高い	`gpt-5.5`は`gpt-5.4`の2倍単価です。高頻度処理では、品質差より請求額の差が先に効きます。
長文入力の追加料金	GPT-5.5では272Kを超える入力でセッション全体の料金倍率が上がります。長い資料を毎回丸投げする設計は避けたいです。
既存プロンプトの過剰指定	旧モデル向けの細かい手順が、GPT-5.5ではノイズになる場合があります。
AGENTS.mdの劣化	古いコマンドや曖昧なルールが残ると、小型モデルほど迷いやすくなります。定期的に実際の開発フローと照合したいです。
セーフガードの強化	OpenAIはGPT-5.5でサイバーリスク向けの分類器を強化しており、当初は一部の正当な防御用途でも面倒に感じる可能性があると説明しています。
モデル機能差	GPT-5.5は音声・動画入出力には非対応です。GPT-5.5 ProはStreaming非対応で、長いリクエストではBackground modeを考える必要があります。

また、GPT-5.5の知識カットオフは2025年12月1日です。最新ニュース、価格、仕様変更、法制度、企業発表を扱うなら、Web検索や公式ドキュメント確認を組み合わせる必要があります。

「最新モデルだから最新情報を知っている」と考えると危険です。モデルの推論力と、参照している情報の新しさは別物です。

明日から試すならこの順番

GPT-5.5は、いきなり全社標準や全APIの既定にするより、手戻りが多いタスクを1つ選び、AGENTS.mdを整えたうえでGPT-5.4 miniと比較するところから始めるのが現実的です。

おすすめの試し方は次の順番です。

1. 失敗時の手戻りが大きいタスクを1つ選ぶ

2. GPT-5.5で設計、影響範囲、完了条件を整理する

3. AGENTS.mdに、参照先、作業ルール、テストコマンド、完了条件を書く

4. 実装とテスト追加をGPT-5.4 miniで回す

5. 詰まった箇所だけGPT-5.5に戻して、AGENTS.mdやdocsへ反映する

6. 修正回数、トークン量、待ち時間、レビュー指摘数を比べる

最初に試すプロンプトは、このくらいの骨格で十分です。


目的:

この入力を、実務で判断に使える成果物へ変換する。



成功条件:

- 結論が最初にある

- 根拠と推定を分ける

- 不足情報と確認事項が分かる

- 次のアクションが具体的に書かれている



制約:

- 根拠がない数字は作らない

- 重要な不確実性は隠さない



出力:

結論、根拠、リスク、未確認事項、次のアクションの順で書く。

この形で改善しないなら、reasoning.effortを上げるより、入力データ、AGENTS.md、ツール、評価基準を見直した方がよいです。GPT-5.5の力を使うには、モデル選びだけでなく仕事の渡し方も変える必要があります。

まとめ

GPT-5.5は、AIに任せる仕事の単位を大きくするモデルです。短い返答を少し良くするためではなく、調査、判断、ツール利用、検証、成果物化まで含む仕事で使うと差が出ます。

2026年4月時点の判断としては、GPT-5.5を全タスクの既定にする必要はありません。複雑なコーディング、長い調査、資料作成、複数ツールをまたぐ業務ではGPT-5.5を試し、AGENTS.mdで前提が固まった実装や高頻度の単純処理はGPT-5.4 miniやnanoを残すのが現実的です。

明日から試すなら、まず手戻りが多いタスクを1つ選んでください。GPT-5.5で設計と完了条件を固め、AGENTS.mdに参照先と作業ルールを残し、実装をGPT-5.4 miniで回します。そのうえで、修正回数、トークン量、待ち時間、レビュー指摘数を比べる。GPT-5.5の導入判断は、その結果を見てからで十分です。

参考情報

本文の提供状況、価格、仕様、プロンプト方針、評価結果、AGENTS.mdの扱いは、2026年4月26日時点で確認できるOpenAI公式情報をもとに整理しています。

GPT-5.5とは？GPT-5.4 miniとの使い分け・AGENTS.md活用を実務目線で整理【2026年4月版】