注目
AI開発

Claude Opus 4.6リリース: コーディングエージェント能力が業界最高水準に到達

Anthropicが最新モデルClaude Opus 4.6を発表。Terminal-Bench 2.0でトップスコアを達成し、1Mトークンコンテキストウィンドウ、Agent Teams、Context Compaction等の新機能を搭載。

投稿者: AI Tools Hub
Claude Anthropic AIコーディング エージェント LLM

Anthropicは2月5日、最新モデル「Claude Opus 4.6」をリリースした。同モデルはコーディングエージェント能力において業界最高水準のベンチマークスコアを達成し、開発者向けに複数の新機能を導入している。

Terminal-Bench 2.0でトップスコアを達成

Claude Opus 4.6は、エージェント型コーディング評価ベンチマーク「Terminal-Bench 2.0」で業界最高スコアを記録した。同ベンチマークは、AIモデルがコードベース内で自律的にタスクを完遂する能力を測定するもので、実際の開発現場での有用性を示す重要な指標となっている。

その他の主要ベンチマークでも高い性能を示している:

  • Humanity’s Last Exam: 複雑な多分野推論テストで全フロンティアモデル中トップ
  • GDPval-AA: 経済的価値の高い知識労働タスク(金融、法務等)でOpenAI GPT-5.2を約144 Eloポイント上回る
  • BrowseComp: オンライン上の発見困難な情報の検索能力で最高性能
  • SWE-bench Verified: 25回の試行平均でプロンプト修正により81.42%を達成

1Mトークンコンテキストウィンドウの導入

Claude Opus 4.6は、Opusクラスモデルとして初めて100万トークンのコンテキストウィンドウをベータ版で提供する。これにより、大規模コードベースの解析や長期間の会話において、モデルがより多くの情報を保持しながら作業できるようになった。

8-needle 1M variant of MRCR v2(大量のテキスト内に「隠された」情報を検索するベンチマーク)では、Opus 4.6が76%のスコアを記録したのに対し、Sonnet 4.5は18.5%にとどまった。この結果は、長期コンテキストにおける性能劣化(「context rot」)の大幅な改善を示している。

開発者向け新機能の導入

Claude Developer Platformでは、以下の新機能がリリースされた:

Adaptive Thinking(適応的思考)

従来は拡張思考のオン/オフの二択だったが、Adaptive Thinkingでは、Claudeが深い推論が有用と判断した場合のみ自動的に使用する。開発者は4段階のEffortレベル(low、medium、high、max)で調整可能。

Context Compaction(コンテキスト圧縮、ベータ版)

長時間実行される会話やエージェントタスクでコンテキストウィンドウの上限に達する問題を解決するため、古いコンテキストを自動的に要約・置換する機能。これにより、制限に達することなくより長いタスクを実行できる。

128k出力トークン対応

最大128,000トークンの出力に対応し、大規模な出力タスクを複数のリクエストに分割せずに完了できるようになった。

US-only Inference(米国内推論)

米国内でのワークロード実行が必要な場合、トークン価格1.1倍でUS-only Inferenceを利用可能。

Claude Codeに「Agent Teams」機能

Claude Codeには研究プレビューとして「Agent Teams」機能が追加された。複数のエージェントを並列実行させ、自律的に連携させることが可能になった。コードベースレビューのような独立した読み取り中心のタスクを複数のサブタスクに分割する場合に最適とされている。

ユーザーはShift+Up/Downまたはtmuxを使用して、任意のサブエージェントを直接操作できる。

オフィスツール統合の強化

Claude in Excelは、長時間実行タスクやより困難なタスクへの対応が改善され、実行前の計画立案、非構造化データの取り込みと適切な構造の自動推論、1回で複数ステップの変更処理が可能になった。

新たに研究プレビューとして「Claude in PowerPoint」が提供開始された。レイアウト、フォント、スライドマスターを読み取り、ブランドに沿ったプレゼンテーション作成が可能。テンプレートからの構築、または説明文からの完全なデッキ生成に対応している。Max、Team、Enterpriseプランで利用可能。

安全性への継続的な取り組み

知能向上は安全性を犠牲にしていない。自動化された行動監査において、Opus 4.6は欺瞞、追従、ユーザーの妄想の助長、悪用への協力といった不適切な行動の発生率が低いことが確認された。全体として、これまでで最も整合性の高いフロンティアモデルだったOpus 4.5と同等の整合性を維持している。

また、Opus 4.6は最近のClaudeモデルの中で、無害なクエリへの回答拒否(over-refusals)の発生率が最も低い。

Anthropicは、Opus 4.6向けに過去最も包括的な安全性評価を実施し、多数の新規テストを初めて適用するとともに、既存の評価項目をアップグレードした。特にサイバーセキュリティ能力の向上を踏まえ、6つの新しいサイバーセキュリティprobesを開発し、潜在的な悪用の検出に活用している。

価格設定

Claude Opus 4.6の価格は、入力100万トークンあたり5ドル、出力100万トークンあたり25ドルで据え置き。20万トークンを超えるプロンプトには、Claude Developer Platformのみで利用可能なプレミアム価格(入力10ドル/出力37.50ドル per million tokens)が適用される。

モデルは本日より、claude.ai、Claude API、および主要クラウドプラットフォームで利用可能。APIではclaude-opus-4-6として指定する。

Claude Opus 4.6の詳細な評価結果と安全性評価については、公式のSystem Cardで確認できる。

この記事をシェア

人気記事

Comparison

ChatGPT(OpenAI)とClaude(Anthropic)の機能比較 2026年版。コーディング・長文解析・コスト・API料金の違いを検証

ChatGPT(GPT-4o/o3)とClaude(Sonnet 4.6/Opus 4.5)を2026年時点の最新情報で比較する。コーディング能力、長文処理、日本語品質、API料金、無料プランの違いをSWE-benchなどのベンチマーク結果とともに解説する。

続きを読む →
opinion

【2026年2月20日 所感】「AIがコードを書く」は仮説から現実になった——しかし私たちはその意味をまだ消化できていない

2026年2月20日に観測したコーディングエージェント関連ニュースの総括と所感。Anthropicの自律性研究、cmux、MJ Rathbunのエージェント事故、HN「外骨格 vs チーム」論争、Stripe Minions週1000件PR、Taalas 17k tokens/sec——朝から夜までの流れを通じて見えてきた「AIがコードを書く時代」の実相を考察する。

続きを読む →
tool

868のスキルをnpx 1コマンドで——「Antigravity Awesome Skills」が主要AIコーディングエージェントの共通スキル基盤になりつつある

Claude Code・Gemini CLI・Codex CLI・Cursor・GitHub Copilotなど主要AIコーディングアシスタントを横断する868以上のスキルライブラリ「Antigravity Awesome Skills」(v5.4.0)を詳細分析。Anthropic・Vercel・OpenAI・Supabase・Microsoftの公式スキルを統合した設計思想、ロール別バンドル・ワークフロー機能、SKILL.mdによる相互運用性のアーキテクチャを解説する。

続きを読む →

他のAIツールも探す

生産性、創造性、イノベーションのための60以上のAIツールの厳選ディレクトリをご覧ください。

0 tools selected