Opus 4.6出ましたね。でもweb開発の本命はSonnetとHaikuじゃない?
Claude Opus 4.6、出ましたね。
最上位モデルが更新された、という意味では分かりやすいニュースです。
ただ、自分は今回は検証していません。というサボりの記事。
理由は単純で、いまの使い方だとコストが重いから。
結論:Opusは見送り。SonnetとHaikuが本命
いまの著者の優先度はこんな感じです。
- 日常の開発を回す → Haiku中心
- 自律寄りでしっかり回す → Sonnetが来たら本命
- Opusは最強だけど常用しない → 今回は見送り
Opusの強さは分かる。
でも、毎日回す前提で考えると、ちょっと違うなと感じています。
Opusが「重い」のは、体感じゃなくて数字の話
GitHub Copilotのプレミアムリクエストは、モデルごとに消費倍率が決まっています。
- Haiku:0.33
- Opus:3
この差は比率で見ると分かりやすくて、
Haiku基準で見るとOpusは約10倍コストが乗る。
日常運用としては、ここが一番きついところです。
Haikuが「レベル高い」と感じる理由のひとつが、この0.33
Haikuって、ただ安いだけじゃないんですよね。
0.33でこの性能、というのが強い。
Copilotのノーマル枠で触りやすいところだと、
- GPT-4.1:速いけど、最近は物足りない場面が増えた
- GPT-5 mini:考えるけど、推論に時間がかかって待つことがある
このへん、日常開発だと「速さ」と「品質」のバランスが難しい。
そこで、少しプレミアムを使う前提でも
0.33で回せるHaikuがちょうどいい落としどころになります。
同じくらいの枠でGemini Flashもあるんですが、
自分の用途だとHaikuのほうが安定している印象です。
特に効くのがこのあたり。
- ユーザーの意図を汲んで、仕様として文章に起こす
- 仕様の抜けを埋めて、タスクに分解する
- 設計メモから、実装に繋がる形に整える
仕様書を書かせる、設計を固める、みたいな文脈だとHaikuで十分な場面が多い。
ここが期待してるポイントです。
Codexが強くなった。そこにGPT-5.2の出来がデカい
前はClaude CodeのMaxプランで回してました。
Opusでの開発体験は、正直かなり良かったです。
ただ最近、「Codexで十分だな」と思う場面が一気に増えました。
その変化の大きな要因がGPT-5.2です。
体感としては、GPT-5.2になってから
- コンテキストが一気に読めるようになった
- それに伴って精度が目に見えて上がった
- 仕様と実装のつながりが切れにくくなった
この伸び方がかなり大きかった。
それまでは「ここはOpusじゃないと無理だな」と思ってたところが、
「コンテキスト読めるだけでこんな変わるのか」ってくらい変わった。
「Codexモデル」じゃなくて、汎用モデル(GPT-5.2)を試してほしい
ここ、ちょっと言いたいポイントがあります。
いまIDE側でも、最初の設定だと「Codex系モデル」が選ばれてることが多いと思います。
ただ、Codex系って"コーディング特化"に見えるぶん、万能に見えがちなんですよね。
でも実際は、汎用モデルのほうが扱いやすい場面が結構あります。
特に、Claude Codeみたいな「指示→分解→実装→修正」みたいな流れを回すとき、
Codex系だと理解がしんどいことがある。
なのでおすすめは、まず汎用モデルの GPT-5.2 に切り替えること。
これ、やるだけで世界が変わることがあります。
普通に「乗り換えただけ」で、意外とちゃんと動きます。
Maxを使ってた人って、たぶんPlusプランくらいは入ってることが多いと思うので、
まずは一回、汎用モデルで回してみてほしい。
「コーディングに強いからCodex」って選びたくなる気持ちは分かるんですが、
実は汎用モデルが一番使いやすい。
ここ、ぜひ試してみてください。
仕事でもCodexを回してると、Opusの理由が薄くなる
これ、趣味だけじゃなくて仕事でも同じです。
いま仕事でもCodexを使っていて、
実装の品質も運用感も、十分に戦えてしまっている。
そうなると、月3万円クラスでOpusを常用する理由が、
自分の中ではだいぶ薄くなりました。
触りたい気持ちはある。
でも常用したいかと言われると、今はあんまりない。
そんな立ち位置です。
重要:ベンチマークの「実行時間の長さ」は、web開発には無関係
ここ、ちょっと大事な視点だと思ってます。
> sustains agentic tasks for longer(エージェントタスクをより長時間持続できる)
つまり、「長く走り続けられること」が、このモデルの売りのひとつ。
実際、ベンチマークでもそういう方向の評価が並んでいます。
- Terminal-Bench 2.0:長時間の自律コーディング
- GDPval-AA:ファイナンス・リーガルなど知識労働タスク
- Humanity's Last Exam:複雑な多分野推論
- BrowseComp:大量の情報から探索する能力
さらに、公式は「stays productive over longer sessions(長いセッションでも生産性を維持する)」とも書いています。加えて、1Mトークンのコンテキストウィンドウ(beta)や、context compactionによる長時間エージェント実行のサポートも入った。
要するに、Opus 4.6は「長く、深く、大量の情報を扱う」方向に全振りしてるんです。
でも、web開発のタスクは短時間で完了する
これが核心です。
web開発の現場でかかる時間の感覚は、こんな感じです。
- 簡単なタスク:数分程度
- 普通のタスク:十数分~数十分
- 複雑なタスク:1時間程度
Codex レベルでも、この範囲のタスクは80~90%完成させてくれます。
一方、ここが大事なポイントなんですが。
実は、Opus 4でも4.5でも、web開発に必要な長時間実行能力は既にあったんですよ。
web開発のタスク(1時間程度)を終わらせるなら、Opus 4でも十分。Opus 4.5でも十分。というか、その能力は「過剰」でした。
Opus 4.6で新しく「longer sessions」「sustains for longer」と強調されてるのは、実行時間という軸をさらに伸ばしたということ。ただ、web開発には1時間あれば足りるので、Opus 4の時点で既に「必要以上」だったわけです。
つまり:
- Opus 4 → web開発には過剰(1時間で完了)
- Opus 4.5 → web開発には過剰(1時間で完了)
- Opus 4.6 → web開発には過剰(1時間で完了)
4.6がさらに過剰になってるだけで、そもそもの構図は変わってない。
別に用途がweb開発だけではないので、この進化が正当なのですが、
web開発文脈なら普通にtoo muchではないでしょうか
Sonnetに期待してる理由:Claude Codeを自律寄りで回す現実ライン
Opusは強い。
ただ、これからは強すぎて過剰になる場面も増えてくる気がしています。
一方で4.5世代のClaude Codeって、
Codexほど「一発で自律して走り切る」感じが出るかというと、まだ微妙。
だから現状は、Claude Codeでガチ運用するならOpusを選びたくなる。
この空気感はあると思っています。
なので自分が一番見たいのは、
- 4.6世代のSonnet
- Claude Code上での自律運用のしやすさ
- Codexとの実装力の差がどうなるか
ここが上がるなら通常プランでの運用も視野に入ってくるため、コストと性能のバランスが一気に現実的になるはずです。
【追記】Claude Sonnet 4.6 でました
sonnet 4.6についても記事をあげているので、ぜひ読んでいただけると嬉しいです
まとめ:今回はOpusを追わない。SonnetとHaikuが来たら検証する
- Haiku 0.33に対して、Opus 3は約10倍コストになりやすい
- だからOpus 4.6は強そうでも、日常運用では重い
- Haikuは0.33で回せて、仕様化・設計あたりが強い
- CodexはGPT-5.2で一気に「これで十分」側に寄った
- Sonnetが4.6世代で上がってきたら、Claude CodeとCodex比較をやる
そんな感じで、今回は静観です。
次に動くなら、SonnetとHaiku。
ここが来たら、ちゃんと触ってまとめます。