Benchmark Monthly
No. 47 / Apr 2026
A Day-One Field Report

OPUS 4.7

vs. the world
2026-04-16 GA。
頂上決戦の幕が、また上がる。
VS GPT-5.4 / GEMINI 3.1 PRO / MYTHOS
Editorial — hanapapa
¥0 / Free Press
April 17, 2026
02
Chapter IIOpening

三つ巴の幕開け

2026-04-16、Anthropicは Claude Opus 4.7 を一般公開した。GPT-5.4、Gemini 3.1 Pro と並ぶ、コーディングAI頂上決戦の三つ巴が始まる。

Opus 4.7 はコンテキスト1Mトークンを据え置きながら、ビジョン解像度2,576px、xhighエフォート、タスク予算という三つの新機能を引っさげて登場した。価格は据え置き。だが、その「据え置き」の裏には新tokenizerによる実コスト増加の可能性が潜む——。

"Opus feels more intelligent, agentic, and precise. It took a few days for me."

— Boris Cherny, Claude Code チーム
2026-04-17 / Hero 02 / 08
03
Chapter IIIBenchmarks

数値裁判

SWE-bench Pro が示すのは、もはや「スコア争い」ではなく「実装現場での現実」だ。 主要8ベンチを横並びに。Vellum集計を主軸とし、Anthropic公式は限定使用。Mythosは制限公開のため参考値。
Benchmark Opus 4.7 Opus 4.6 GPT-5.4 Gemini 3.1 Pro Mythos* 出典
SWE-bench Verified 87.6%80.8%80.6%V
SWE-bench Pro 64.3%53.4%57.7%54.2%77.8%V
GPQA Diamond 94.2%91.3%94.4%94.3%V
MCP-Atlas 77.3%68.1%73.9%V
OSWorld-Verified 78.0%72.7%V
BrowseComp 79.3%83.7%89.3%85.9%V
CharXiv Visual 82.1%69.1%V
BigLaw Bench 90.9%A
出典フラグ: V = Vellum 集計 / A = Anthropic 公式 / N = NxCode / S = Scale Labs。Vellum を主とし、第三者ベンチ未公開のものに限り A を併用。BigLaw Bench は第三者集計が出次第更新。 * Mythos は制限公開 (Project Glasswing 安全審査中)。一般公開計画なし。
2026-04-17 / Benchmarks 03 / 08
04
Pillar ICoding

I. Coding Precision

64.3%
SWE-bench ProOpus 4.7 / 2026-04-17

GA最強。10pt の開きが意味するもの。

SWE-bench Pro は実プロジェクトの修正タスクを評価する。GPT-5.4 (57.7%) や Gemini 3.1 Pro (54.2%) との 6.6〜10.1pt 差は、長時間の自律コーディングループにおける「厳密性と一貫性」の差として体感される。CursorBench でも前世代比 +12pt と、実開発者ベンチで明確な前進が報告されている。

新コマンド: /ultrareview ── アーキテクチャ・セキュリティ・パフォーマンス・保守性を横断する専用レビューセッションを起動。単一パスのレビューでは取りこぼしがちな「ファイル横断のセキュリティパターン」も検出する。
Opus 4.7
64.3%
GPT-5.4
57.7%
Gemini 3.1 Pro
54.2%
Opus 4.6
53.4%
Mythos*
77.8%
Pillar I — Coding 04 / 08
05
Pillar IIAgents

II. Agents in Production

77.3%
MCP-AtlasOpus 4.7 / マルチツール連携

ツール連携 + タスク予算 = 投入可能の現実解。

複数ツールを長時間にわたって協調させるエージェントワークフローで、Opus 4.7 は GPT-5.4 (68.1%) を 9.2pt、Gemini 3.1 Pro (73.9%) を 3.4pt 上回る。OSWorld-Verified 78.0%、視覚精度 98.5% という数値は、コンピュータ使用エージェントが「実用域」に達したことを意味する。

タスク予算 (Public Beta) ── エージェントループ全体(thinking・tool calls・出力)のトークン上限を設定すると、モデルが予算消費とともに優先度を自律調整する。プロダクション投入における「コスト青天井」問題への一つの解。
Opus 4.7
77.3%
Gemini 3.1 Pro
73.9%
GPT-5.4
68.1%
Pillar II — Agents 05 / 08
06
Pillar IIIVision

III. Vision at 2,576px

2,576px
最大入力解像度Opus 4.7 / 約 3.75 MP

スクリーンショット読解、PDF解析、RPA型自動化が実用域へ。

従来モデル比 3 倍以上の解像度。CharXiv Visual Reasoning は 82.1%(前世代比 +13.0pt)と、リリース全ベンチ中で最も大きな改善幅を記録した。OSWorld 78.0%、コンピュータ使用 98.5% 視覚精度と組み合わさることで、実画面を「読んで操作する」エージェントの設計選択肢が広がる。

ビジョン×コーディング合成 ── 画面スクショ → コード生成の往復が高密度になる。Figma → React コード変換、デザインレビューの自動化、RPA設計補助など、ビジュアル文脈を要するタスクで Opus 4.7 が優位。
Opus 4.7
82.1%
Opus 4.6
69.1%
Pillar III — Vision 06 / 08
07
Chapter VIIPricing

価格と

Model Input ($/MTok) Output ($/MTok) Context
Claude Opus 4.7 $5.00 $25.00 1M
Claude Sonnet 4.6 $3.00 $15.00 1M
GPT-5.4 $2.50 $15.00 400K
Gemini 3.1 Pro (≤200K) $2.00 $12.00 2M
Gemini 3.1 Pro (>200K) $4.00 $18.00 2M
Chapter VII — Pricing 07 / 08
08
Chapter VIIIAfterword

編集後記

Mythos の影

Anthropic は今回、Opus 4.7 を「最強のGAモデル」と位置付けながら、SWE-bench Pro 77.8% の Mythos が依然として制限公開のままであることを認めている。Gizmodo は皮肉的に「Opus 4.7 は Mythos がいかに偉大かを思い出させるためにリリースされた」と書いた。だが Anthropic 自身は、Opus 4.7 の実世界デプロイから安全策を学び、最終的に Mythos クラスを広く公開することを目指すと明言している。GA は試金石であり、Mythos はその前方に置かれた目印だ。

BrowseComp という弱点

正直に書けば、Opus 4.7 は BrowseComp で 79.3% と、GPT-5.4 (89.3%)・Gemini 3.1 Pro (85.9%) に大差で劣後する。Web検索・情報収集を主とするエージェントを設計するなら、現時点では GPT-5.4 を選ぶ方が合理的だ。前世代 (Opus 4.6) より 4.4pt 後退している点も含め、リサーチ特化用途では Opus 4.7 を「主力」に据えにくい。

編集者の所感 — 三つ

(1) SWE-bench Pro 64.3% という数字は、AI進歩停滞説への一つの返答だ。前世代比 +10.9pt は誤差ではない。
(2) タスク予算 は地味だが効く機能だ。コスト上限を約束できるエージェントは、CTO に説明しやすい。
(3) Mythos の影 は不安ではなく予告編として読みたい。Anthropic は意図的にサイバー能力を抑制している、と公式に書いている。

※ 本誌は 2026-04-17 時点の公開情報を集約した個人レビューです。ベンチマーク数値は出典 (V/A/N/S) を併記しましたが、各ベンダーの最新発表で値が更新されている可能性があります。引用前に各社公式・出典先をご確認ください。

Benchmark Monthly No.47 ── thank you for reading. fin.