Claude Opus 4.6リリース: コーディングエージェント能力が業界最高水準に到達
Anthropicが最新モデルClaude Opus 4.6を発表。Terminal-Bench 2.0でトップスコアを達成し、1Mトークンコンテキストウィンドウ、Agent Teams、Context Compaction等の新機能を搭載。
Anthropicは2月5日、最新モデル「Claude Opus 4.6」をリリースした。同モデルはコーディングエージェント能力において業界最高水準のベンチマークスコアを達成し、開発者向けに複数の新機能を導入している。
Terminal-Bench 2.0でトップスコアを達成
Claude Opus 4.6は、エージェント型コーディング評価ベンチマーク「Terminal-Bench 2.0」で業界最高スコアを記録した。同ベンチマークは、AIモデルがコードベース内で自律的にタスクを完遂する能力を測定するもので、実際の開発現場での有用性を示す重要な指標となっている。
その他の主要ベンチマークでも高い性能を示している:
- Humanity’s Last Exam: 複雑な多分野推論テストで全フロンティアモデル中トップ
- GDPval-AA: 経済的価値の高い知識労働タスク(金融、法務等)でOpenAI GPT-5.2を約144 Eloポイント上回る
- BrowseComp: オンライン上の発見困難な情報の検索能力で最高性能
- SWE-bench Verified: 25回の試行平均でプロンプト修正により81.42%を達成
1Mトークンコンテキストウィンドウの導入
Claude Opus 4.6は、Opusクラスモデルとして初めて100万トークンのコンテキストウィンドウをベータ版で提供する。これにより、大規模コードベースの解析や長期間の会話において、モデルがより多くの情報を保持しながら作業できるようになった。
8-needle 1M variant of MRCR v2(大量のテキスト内に「隠された」情報を検索するベンチマーク)では、Opus 4.6が76%のスコアを記録したのに対し、Sonnet 4.5は18.5%にとどまった。この結果は、長期コンテキストにおける性能劣化(「context rot」)の大幅な改善を示している。
開発者向け新機能の導入
Claude Developer Platformでは、以下の新機能がリリースされた:
Adaptive Thinking(適応的思考)
従来は拡張思考のオン/オフの二択だったが、Adaptive Thinkingでは、Claudeが深い推論が有用と判断した場合のみ自動的に使用する。開発者は4段階のEffortレベル(low、medium、high、max)で調整可能。
Context Compaction(コンテキスト圧縮、ベータ版)
長時間実行される会話やエージェントタスクでコンテキストウィンドウの上限に達する問題を解決するため、古いコンテキストを自動的に要約・置換する機能。これにより、制限に達することなくより長いタスクを実行できる。
128k出力トークン対応
最大128,000トークンの出力に対応し、大規模な出力タスクを複数のリクエストに分割せずに完了できるようになった。
US-only Inference(米国内推論)
米国内でのワークロード実行が必要な場合、トークン価格1.1倍でUS-only Inferenceを利用可能。
Claude Codeに「Agent Teams」機能
Claude Codeには研究プレビューとして「Agent Teams」機能が追加された。複数のエージェントを並列実行させ、自律的に連携させることが可能になった。コードベースレビューのような独立した読み取り中心のタスクを複数のサブタスクに分割する場合に最適とされている。
ユーザーはShift+Up/Downまたはtmuxを使用して、任意のサブエージェントを直接操作できる。
オフィスツール統合の強化
Claude in Excelは、長時間実行タスクやより困難なタスクへの対応が改善され、実行前の計画立案、非構造化データの取り込みと適切な構造の自動推論、1回で複数ステップの変更処理が可能になった。
新たに研究プレビューとして「Claude in PowerPoint」が提供開始された。レイアウト、フォント、スライドマスターを読み取り、ブランドに沿ったプレゼンテーション作成が可能。テンプレートからの構築、または説明文からの完全なデッキ生成に対応している。Max、Team、Enterpriseプランで利用可能。
安全性への継続的な取り組み
知能向上は安全性を犠牲にしていない。自動化された行動監査において、Opus 4.6は欺瞞、追従、ユーザーの妄想の助長、悪用への協力といった不適切な行動の発生率が低いことが確認された。全体として、これまでで最も整合性の高いフロンティアモデルだったOpus 4.5と同等の整合性を維持している。
また、Opus 4.6は最近のClaudeモデルの中で、無害なクエリへの回答拒否(over-refusals)の発生率が最も低い。
Anthropicは、Opus 4.6向けに過去最も包括的な安全性評価を実施し、多数の新規テストを初めて適用するとともに、既存の評価項目をアップグレードした。特にサイバーセキュリティ能力の向上を踏まえ、6つの新しいサイバーセキュリティprobesを開発し、潜在的な悪用の検出に活用している。
価格設定
Claude Opus 4.6の価格は、入力100万トークンあたり5ドル、出力100万トークンあたり25ドルで据え置き。20万トークンを超えるプロンプトには、Claude Developer Platformのみで利用可能なプレミアム価格(入力10ドル/出力37.50ドル per million tokens)が適用される。
モデルは本日より、claude.ai、Claude API、および主要クラウドプラットフォームで利用可能。APIではclaude-opus-4-6として指定する。
Claude Opus 4.6の詳細な評価結果と安全性評価については、公式のSystem Cardで確認できる。
関連記事
Claude Code v2.1.86 リリース - セッションIDヘッダー追加とVCS除外設定の改善
Claude Code v2.1.86がリリースされた。X-Claude-Code-Session-Idヘッダーの追加、Jujutsu/Sapling向けVCS除外設定、多数のパフォーマンス改善を含む。
Claude Code v2.1.87 リリース - Cowork Dispatchメッセージ配送の修正
Claude Code v2.1.87がリリースされた。Cowork Dispatchでのメッセージ配送問題を修正するマイナーアップデート。
Claude Code v2.1.90 リリース - /powerupコマンドとresumeキャッシュのバグ修正
Claude Code v2.1.90がリリースされた。/powerupコマンドによるインタラクティブな学習と、resumeキャッシュのバグ修正が行われる。
人気記事
Claude Code v2.1.93 リリース - PreToolUseフック延期決定やフリッカーFREE渲染など
AnthropicがClaude Code v2.1.93をリリース。PreToolUseフックの延期決定機能、フリッカー-freeレンダリングオプション、PermissionDeniedフック、名前付きサブエージェントのタイプアヘッド対応などを含む。
Claude Code v2.1.92 リリース - forceRemoteSettingsRefreshやBedrockセットアップウィザードなど
AnthropicがClaude Code v2.1.92をリリース。forceRemoteSettingsRefreshポリシー設定、Bedrockセットアップウィザード、costコマンドの改善など多数の機能追加とバグ修正を含む。
Claude Code v2.1.84 リリース - PowerShellツールプレビューと環境設定の強化
Claude Code v2.1.84がリリース。Windows向けのPowerShellツール、環境変数によるモデル選択のカスタマイズアイドルセッション処理の改善などが含まれる。
最新記事
Claude Code v2.1.93 リリース - PreToolUseフック延期決定やフリッカーFREE渲染など
AnthropicがClaude Code v2.1.93をリリース。PreToolUseフックの延期決定機能、フリッカー-freeレンダリングオプション、PermissionDeniedフック、名前付きサブエージェントのタイプアヘッド対応などを含む。
Claude Code v2.1.92 リリース - forceRemoteSettingsRefreshやBedrockセットアップウィザードなど
AnthropicがClaude Code v2.1.92をリリース。forceRemoteSettingsRefreshポリシー設定、Bedrockセットアップウィザード、costコマンドの改善など多数の機能追加とバグ修正を含む。
Claude Code v2.1.91 リリース - MCPツール結果の永続化とEditツールの最適化
Claude Code v2.1.91ではMCPツールの結果サイズの上書き、シェル実行の制御強化、Editツールの効率改善などが行われた。