OPUS 4.7
頂上決戦の幕が、また上がる。
三つ巴の幕開け
2026-04-16、Anthropicは Claude Opus 4.7 を一般公開した。GPT-5.4、Gemini 3.1 Pro と並ぶ、コーディングAI頂上決戦の三つ巴が始まる。
Opus 4.7 はコンテキスト1Mトークンを据え置きながら、ビジョン解像度2,576px、xhighエフォート、タスク予算という三つの新機能を引っさげて登場した。価格は据え置き。だが、その「据え置き」の裏には新tokenizerによる実コスト増加の可能性が潜む——。
"Opus feels more intelligent, agentic, and precise. It took a few days for me."
— Boris Cherny, Claude Code チーム
数値裁判
| Benchmark | Opus 4.7 | Opus 4.6 | GPT-5.4 | Gemini 3.1 Pro | Mythos* | 出典 |
|---|---|---|---|---|---|---|
| SWE-bench Verified | 87.6% | 80.8% | — | 80.6% | — | V |
| SWE-bench Pro | 64.3% | 53.4% | 57.7% | 54.2% | 77.8% | V |
| GPQA Diamond | 94.2% | 91.3% | 94.4% | 94.3% | — | V |
| MCP-Atlas | 77.3% | — | 68.1% | 73.9% | — | V |
| OSWorld-Verified | 78.0% | 72.7% | — | — | — | V |
| BrowseComp | 79.3% | 83.7% | 89.3% | 85.9% | — | V |
| CharXiv Visual | 82.1% | 69.1% | — | — | — | V |
| BigLaw Bench | 90.9% | — | — | — | — | A |
I. Coding Precision
GA最強。10pt の開きが意味するもの。
SWE-bench Pro は実プロジェクトの修正タスクを評価する。GPT-5.4 (57.7%) や Gemini 3.1 Pro (54.2%) との 6.6〜10.1pt 差は、長時間の自律コーディングループにおける「厳密性と一貫性」の差として体感される。CursorBench でも前世代比 +12pt と、実開発者ベンチで明確な前進が報告されている。
II. Agents in Production
ツール連携 + タスク予算 = 投入可能の現実解。
複数ツールを長時間にわたって協調させるエージェントワークフローで、Opus 4.7 は GPT-5.4 (68.1%) を 9.2pt、Gemini 3.1 Pro (73.9%) を 3.4pt 上回る。OSWorld-Verified 78.0%、視覚精度 98.5% という数値は、コンピュータ使用エージェントが「実用域」に達したことを意味する。
III. Vision at 2,576px
スクリーンショット読解、PDF解析、RPA型自動化が実用域へ。
従来モデル比 3 倍以上の解像度。CharXiv Visual Reasoning は 82.1%(前世代比 +13.0pt)と、リリース全ベンチ中で最も大きな改善幅を記録した。OSWorld 78.0%、コンピュータ使用 98.5% 視覚精度と組み合わさることで、実画面を「読んで操作する」エージェントの設計選択肢が広がる。
価格と影
| Model | Input ($/MTok) | Output ($/MTok) | Context |
|---|---|---|---|
| Claude Opus 4.7 | $5.00 | $25.00 | 1M |
| Claude Sonnet 4.6 | $3.00 | $15.00 | 1M |
| GPT-5.4 | $2.50 | $15.00 | 400K |
| Gemini 3.1 Pro (≤200K) | $2.00 | $12.00 | 2M |
| Gemini 3.1 Pro (>200K) | $4.00 | $18.00 | 2M |
編集後記
Mythos の影
Anthropic は今回、Opus 4.7 を「最強のGAモデル」と位置付けながら、SWE-bench Pro 77.8% の Mythos が依然として制限公開のままであることを認めている。Gizmodo は皮肉的に「Opus 4.7 は Mythos がいかに偉大かを思い出させるためにリリースされた」と書いた。だが Anthropic 自身は、Opus 4.7 の実世界デプロイから安全策を学び、最終的に Mythos クラスを広く公開することを目指すと明言している。GA は試金石であり、Mythos はその前方に置かれた目印だ。
BrowseComp という弱点
正直に書けば、Opus 4.7 は BrowseComp で 79.3% と、GPT-5.4 (89.3%)・Gemini 3.1 Pro (85.9%) に大差で劣後する。Web検索・情報収集を主とするエージェントを設計するなら、現時点では GPT-5.4 を選ぶ方が合理的だ。前世代 (Opus 4.6) より 4.4pt 後退している点も含め、リサーチ特化用途では Opus 4.7 を「主力」に据えにくい。
編集者の所感 — 三つ
(1) SWE-bench Pro 64.3% という数字は、AI進歩停滞説への一つの返答だ。前世代比 +10.9pt は誤差ではない。
(2) タスク予算 は地味だが効く機能だ。コスト上限を約束できるエージェントは、CTO に説明しやすい。
(3) Mythos の影 は不安ではなく予告編として読みたい。Anthropic は意図的にサイバー能力を抑制している、と公式に書いている。
※ 本誌は 2026-04-17 時点の公開情報を集約した個人レビューです。ベンチマーク数値は出典 (V/A/N/S) を併記しましたが、各ベンダーの最新発表で値が更新されている可能性があります。引用前に各社公式・出典先をご確認ください。