Claude Opus 4.6リリース: コーディングエージェント能力が業界最高水準に到達
Anthropicが最新モデルClaude Opus 4.6を発表。Terminal-Bench 2.0でトップスコアを達成し、1Mトークンコンテキストウィンドウ、Agent Teams、Context Compaction等の新機能を搭載。
Anthropicは2月5日、最新モデル「Claude Opus 4.6」をリリースした。同モデルはコーディングエージェント能力において業界最高水準のベンチマークスコアを達成し、開発者向けに複数の新機能を導入している。
Terminal-Bench 2.0でトップスコアを達成
Claude Opus 4.6は、エージェント型コーディング評価ベンチマーク「Terminal-Bench 2.0」で業界最高スコアを記録した。同ベンチマークは、AIモデルがコードベース内で自律的にタスクを完遂する能力を測定するもので、実際の開発現場での有用性を示す重要な指標となっている。
その他の主要ベンチマークでも高い性能を示している:
- Humanity’s Last Exam: 複雑な多分野推論テストで全フロンティアモデル中トップ
- GDPval-AA: 経済的価値の高い知識労働タスク(金融、法務等)でOpenAI GPT-5.2を約144 Eloポイント上回る
- BrowseComp: オンライン上の発見困難な情報の検索能力で最高性能
- SWE-bench Verified: 25回の試行平均でプロンプト修正により81.42%を達成
1Mトークンコンテキストウィンドウの導入
Claude Opus 4.6は、Opusクラスモデルとして初めて100万トークンのコンテキストウィンドウをベータ版で提供する。これにより、大規模コードベースの解析や長期間の会話において、モデルがより多くの情報を保持しながら作業できるようになった。
8-needle 1M variant of MRCR v2(大量のテキスト内に「隠された」情報を検索するベンチマーク)では、Opus 4.6が76%のスコアを記録したのに対し、Sonnet 4.5は18.5%にとどまった。この結果は、長期コンテキストにおける性能劣化(「context rot」)の大幅な改善を示している。
開発者向け新機能の導入
Claude Developer Platformでは、以下の新機能がリリースされた:
Adaptive Thinking(適応的思考)
従来は拡張思考のオン/オフの二択だったが、Adaptive Thinkingでは、Claudeが深い推論が有用と判断した場合のみ自動的に使用する。開発者は4段階のEffortレベル(low、medium、high、max)で調整可能。
Context Compaction(コンテキスト圧縮、ベータ版)
長時間実行される会話やエージェントタスクでコンテキストウィンドウの上限に達する問題を解決するため、古いコンテキストを自動的に要約・置換する機能。これにより、制限に達することなくより長いタスクを実行できる。
128k出力トークン対応
最大128,000トークンの出力に対応し、大規模な出力タスクを複数のリクエストに分割せずに完了できるようになった。
US-only Inference(米国内推論)
米国内でのワークロード実行が必要な場合、トークン価格1.1倍でUS-only Inferenceを利用可能。
Claude Codeに「Agent Teams」機能
Claude Codeには研究プレビューとして「Agent Teams」機能が追加された。複数のエージェントを並列実行させ、自律的に連携させることが可能になった。コードベースレビューのような独立した読み取り中心のタスクを複数のサブタスクに分割する場合に最適とされている。
ユーザーはShift+Up/Downまたはtmuxを使用して、任意のサブエージェントを直接操作できる。
オフィスツール統合の強化
Claude in Excelは、長時間実行タスクやより困難なタスクへの対応が改善され、実行前の計画立案、非構造化データの取り込みと適切な構造の自動推論、1回で複数ステップの変更処理が可能になった。
新たに研究プレビューとして「Claude in PowerPoint」が提供開始された。レイアウト、フォント、スライドマスターを読み取り、ブランドに沿ったプレゼンテーション作成が可能。テンプレートからの構築、または説明文からの完全なデッキ生成に対応している。Max、Team、Enterpriseプランで利用可能。
安全性への継続的な取り組み
知能向上は安全性を犠牲にしていない。自動化された行動監査において、Opus 4.6は欺瞞、追従、ユーザーの妄想の助長、悪用への協力といった不適切な行動の発生率が低いことが確認された。全体として、これまでで最も整合性の高いフロンティアモデルだったOpus 4.5と同等の整合性を維持している。
また、Opus 4.6は最近のClaudeモデルの中で、無害なクエリへの回答拒否(over-refusals)の発生率が最も低い。
Anthropicは、Opus 4.6向けに過去最も包括的な安全性評価を実施し、多数の新規テストを初めて適用するとともに、既存の評価項目をアップグレードした。特にサイバーセキュリティ能力の向上を踏まえ、6つの新しいサイバーセキュリティprobesを開発し、潜在的な悪用の検出に活用している。
価格設定
Claude Opus 4.6の価格は、入力100万トークンあたり5ドル、出力100万トークンあたり25ドルで据え置き。20万トークンを超えるプロンプトには、Claude Developer Platformのみで利用可能なプレミアム価格(入力10ドル/出力37.50ドル per million tokens)が適用される。
モデルは本日より、claude.ai、Claude API、および主要クラウドプラットフォームで利用可能。APIではclaude-opus-4-6として指定する。
Claude Opus 4.6の詳細な評価結果と安全性評価については、公式のSystem Cardで確認できる。
関連記事
Claude Codeに28個の公式プラグインが存在 - ほとんど知られていない機能拡張の全容
RedditユーザーがClaude Codeの28個の公式プラグインを発見。TypeScript LSP、セキュリティスキャン、context7ドキュメント検索、Playwright自動化など。多くが未文書化。
KimiがOpenClawをネイティブ統合 - ブラウザ内で5,000以上のスキルと40GBストレージを提供
Moonshot AIのKimi.comがOpenClawをブラウザタブ内でネイティブサポート。24時間365日稼働、ClawHub経由で5,000以上のスキルアクセス、40GBクラウドストレージ、プロ級検索機能を提供。
OpenClaw v2026.2.14リリース - 大規模セキュリティ強化と100以上のバグ修正を実施
OpenClawがv2026.2.14をリリース。広範なセキュリティ改善、TUI安定性向上、メモリシステム最適化、チャンネル・エージェント・ツール全体で100以上のバグ修正を実施。
人気記事
ChatGPT(OpenAI)とClaude(Anthropic)の機能比較 2026年版。コーディング・長文解析・コスト・API料金の違いを検証
ChatGPT(GPT-4o/o3)とClaude(Sonnet 4.6/Opus 4.5)を2026年時点の最新情報で比較する。コーディング能力、長文処理、日本語品質、API料金、無料プランの違いをSWE-benchなどのベンチマーク結果とともに解説する。
【2026年2月20日 所感】「AIがコードを書く」は仮説から現実になった——しかし私たちはその意味をまだ消化できていない
2026年2月20日に観測したコーディングエージェント関連ニュースの総括と所感。Anthropicの自律性研究、cmux、MJ Rathbunのエージェント事故、HN「外骨格 vs チーム」論争、Stripe Minions週1000件PR、Taalas 17k tokens/sec——朝から夜までの流れを通じて見えてきた「AIがコードを書く時代」の実相を考察する。
868のスキルをnpx 1コマンドで——「Antigravity Awesome Skills」が主要AIコーディングエージェントの共通スキル基盤になりつつある
Claude Code・Gemini CLI・Codex CLI・Cursor・GitHub Copilotなど主要AIコーディングアシスタントを横断する868以上のスキルライブラリ「Antigravity Awesome Skills」(v5.4.0)を詳細分析。Anthropic・Vercel・OpenAI・Supabase・Microsoftの公式スキルを統合した設計思想、ロール別バンドル・ワークフロー機能、SKILL.mdによる相互運用性のアーキテクチャを解説する。
最新記事
AIエージェント間通信の標準化競争が始まる——AquaとAgent Semantic Protocolが同日登場
2026年2月23日、Hacker Newsに2つのAIエージェント通信プロジェクトが同日掲載された。Go製CLI「Aqua」とセマンティックルーティングを実装する「Agent Semantic Protocol」は、MCPが解決できないP2P・非同期通信の課題に取り組む。
Claude Sonnet 4.6、無料・Proプランのデフォルトモデルに——社内テストでOpus 4.5を59%の確率で上回る
Anthropicは2026年2月17日にリリースしたClaude Sonnet 4.6を、claude.aiの無料・Proプランのデフォルトモデルに設定した。価格はSonnet 4.5と同額の$3/$15 per 1Mトークン。社内評価ではコーディングエージェント用途でOpus 4.5を上回る結果が出ている。
GoogleがOpenClaw経由のGemini利用ユーザーのアカウントを永久停止——月額$250請求継続のまま
2026年2月23日、Hacker Newsで140pt/107コメントを集めたレポートによると、GoogleはOpenClaw(サードパーティクライアント)経由でGeminiを使用していたGoogle AI Pro/Ultraユーザーを予告なしに永久停止した。技術的・経済的背景を整理する。