Benchmark Monthly

No. 47 / Apr 2026

A Day-One Field Report

OPUS 4.7

vs. the world

2026-04-16 GA。
頂上決戦の幕が、また上がる。

VS GPT-5.4 / GEMINI 3.1 PRO / MYTHOS

Editorial — hanapapa

¥0 / Free Press

April 17, 2026

02

Chapter IIOpening

三つ巴の幕開け

2026-04-16、Anthropicは Claude Opus 4.7 を一般公開した。GPT-5.4、Gemini 3.1 Pro と並ぶ、コーディングAI頂上決戦の三つ巴が始まる。

Opus 4.7 はコンテキスト1Mトークンを据え置きながら、ビジョン解像度2,576px、xhighエフォート、タスク予算という三つの新機能を引っさげて登場した。価格は据え置き。だが、その「据え置き」の裏には新tokenizerによる実コスト増加の可能性が潜む——。

"Opus feels more intelligent, agentic, and precise. It took a few days for me."
— Boris Cherny, Claude Code チーム

2026-04-17 / Hero 02 / 08

03

Chapter IIIBenchmarks

数値裁判

SWE-bench Pro が示すのは、もはや「スコア争い」ではなく「実装現場での現実」だ。主要8ベンチを横並びに。Vellum集計を主軸とし、Anthropic公式は限定使用。Mythosは制限公開のため参考値。

Benchmark	Opus 4.7	Opus 4.6	GPT-5.4	Gemini 3.1 Pro	Mythos*	出典
SWE-bench Verified	87.6%	80.8%	—	80.6%	—	V
SWE-bench Pro	64.3%	53.4%	57.7%	54.2%	77.8%	V
GPQA Diamond	94.2%	91.3%	94.4%	94.3%	—	V
MCP-Atlas	77.3%	—	68.1%	73.9%	—	V
OSWorld-Verified	78.0%	72.7%	—	—	—	V
BrowseComp	79.3%	83.7%	89.3%	85.9%	—	V
CharXiv Visual	82.1%	69.1%	—	—	—	V
BigLaw Bench	90.9%	—	—	—	—	A

出典フラグ: V = Vellum 集計 / A = Anthropic 公式 / N = NxCode / S = Scale Labs。Vellum を主とし、第三者ベンチ未公開のものに限り A を併用。BigLaw Bench は第三者集計が出次第更新。 * Mythos は制限公開 (Project Glasswing 安全審査中)。一般公開計画なし。

2026-04-17 / Benchmarks 03 / 08

04

Pillar ICoding

I. Coding Precision

64.3%

SWE-bench ProOpus 4.7 / 2026-04-17

GA最強。10pt の開きが意味するもの。

SWE-bench Pro は実プロジェクトの修正タスクを評価する。GPT-5.4 (57.7%) や Gemini 3.1 Pro (54.2%) との 6.6〜10.1pt 差は、長時間の自律コーディングループにおける「厳密性と一貫性」の差として体感される。CursorBench でも前世代比 +12pt と、実開発者ベンチで明確な前進が報告されている。

新コマンド: /ultrareview ── アーキテクチャ・セキュリティ・パフォーマンス・保守性を横断する専用レビューセッションを起動。単一パスのレビューでは取りこぼしがちな「ファイル横断のセキュリティパターン」も検出する。

Opus 4.7

64.3%

GPT-5.4

57.7%

Gemini 3.1 Pro

54.2%

Opus 4.6

53.4%

Mythos*

77.8%

Pillar I — Coding 04 / 08

05

Pillar IIAgents

II. Agents in Production

77.3%

MCP-AtlasOpus 4.7 / マルチツール連携

ツール連携 + タスク予算 = 投入可能の現実解。

複数ツールを長時間にわたって協調させるエージェントワークフローで、Opus 4.7 は GPT-5.4 (68.1%) を 9.2pt、Gemini 3.1 Pro (73.9%) を 3.4pt 上回る。OSWorld-Verified 78.0%、視覚精度 98.5% という数値は、コンピュータ使用エージェントが「実用域」に達したことを意味する。

タスク予算 (Public Beta) ── エージェントループ全体（thinking・tool calls・出力）のトークン上限を設定すると、モデルが予算消費とともに優先度を自律調整する。プロダクション投入における「コスト青天井」問題への一つの解。

Opus 4.7

77.3%

Gemini 3.1 Pro

73.9%

GPT-5.4

68.1%

Pillar II — Agents 05 / 08

06

Pillar IIIVision

III. Vision at 2,576px

2,576px

最大入力解像度Opus 4.7 / 約 3.75 MP

スクリーンショット読解、PDF解析、RPA型自動化が実用域へ。

従来モデル比 3 倍以上の解像度。CharXiv Visual Reasoning は 82.1%（前世代比 +13.0pt）と、リリース全ベンチ中で最も大きな改善幅を記録した。OSWorld 78.0%、コンピュータ使用 98.5% 視覚精度と組み合わさることで、実画面を「読んで操作する」エージェントの設計選択肢が広がる。

ビジョン×コーディング合成 ── 画面スクショ → コード生成の往復が高密度になる。Figma → React コード変換、デザインレビューの自動化、RPA設計補助など、ビジュアル文脈を要するタスクで Opus 4.7 が優位。

Opus 4.7

82.1%

Opus 4.6

69.1%

Pillar III — Vision 06 / 08

07

Chapter VIIPricing

価格と影

Model	Input ($/MTok)	Output ($/MTok)	Context
Claude Opus 4.7	$5.00	$25.00	1M
Claude Sonnet 4.6	$3.00	$15.00	1M
GPT-5.4	$2.50	$15.00	400K
Gemini 3.1 Pro (≤200K)	$2.00	$12.00	2M
Gemini 3.1 Pro (>200K)	$4.00	$18.00	2M

Tokenizer の影

Opus 4.7 は新tokenizer導入により、同一テキストで 最大 +35% 多くトークンが生成される可能性がある（推測情報、Finout 1ソース）。単価据え置きでも実コストは上振れ得る。プロダクション投入前に実測推奨。

用途別マトリクス

Opus 4.7 — 精度最優先

長時間自律コーディング、ファイル横断レビュー、RPA設計

Sonnet 4.6 — コスパ高速

主要ベンチで Opus 比 98%、価格 60% 引き。日常開発の主力

GPT-5.4 — Web情報収集

BrowseComp 89.3%。リサーチ特化エージェントなら有利

Gemini 3.1 Pro — 超長文

2Mコンテキスト。書籍級資料・コードベース全体把握

Chapter VII — Pricing 07 / 08

08

Chapter VIIIAfterword

編集後記

Mythos の影

Anthropic は今回、Opus 4.7 を「最強のGAモデル」と位置付けながら、SWE-bench Pro 77.8% の Mythos が依然として制限公開のままであることを認めている。Gizmodo は皮肉的に「Opus 4.7 は Mythos がいかに偉大かを思い出させるためにリリースされた」と書いた。だが Anthropic 自身は、Opus 4.7 の実世界デプロイから安全策を学び、最終的に Mythos クラスを広く公開することを目指すと明言している。GA は試金石であり、Mythos はその前方に置かれた目印だ。

BrowseComp という弱点

正直に書けば、Opus 4.7 は BrowseComp で 79.3% と、GPT-5.4 (89.3%)・Gemini 3.1 Pro (85.9%) に大差で劣後する。Web検索・情報収集を主とするエージェントを設計するなら、現時点では GPT-5.4 を選ぶ方が合理的だ。前世代 (Opus 4.6) より 4.4pt 後退している点も含め、リサーチ特化用途では Opus 4.7 を「主力」に据えにくい。

編集者の所感 — 三つ

(1) SWE-bench Pro 64.3% という数字は、AI進歩停滞説への一つの返答だ。前世代比 +10.9pt は誤差ではない。
(2) タスク予算 は地味だが効く機能だ。コスト上限を約束できるエージェントは、CTO に説明しやすい。
(3) Mythos の影 は不安ではなく予告編として読みたい。Anthropic は意図的にサイバー能力を抑制している、と公式に書いている。

※ 本誌は 2026-04-17 時点の公開情報を集約した個人レビューです。ベンチマーク数値は出典 (V/A/N/S) を併記しましたが、各ベンダーの最新発表で値が更新されている可能性があります。引用前に各社公式・出典先をご確認ください。

Benchmark Monthly No.47 ── thank you for reading. fin.