Claude Opus 4.6 Release: Industry-Leading Coding Agent Capabilities
Anthropic releases Claude Opus 4.6, achieving top scores on Terminal-Bench 2.0 with 1M token context window, Agent Teams, Context Compaction, and enhanced safety measures.
Anthropic released Claude Opus 4.6 on February 5, delivering industry-leading performance in coding agent capabilities and introducing multiple developer-focused features.
Top Score on Terminal-Bench 2.0
Claude Opus 4.6 achieved the highest score on Terminal-Bench 2.0, an agentic coding evaluation benchmark. This benchmark measures an AI model’s ability to autonomously complete tasks within codebases, representing a critical indicator of real-world development utility.
The model also excels across other major benchmarks:
- Humanity’s Last Exam: Leads all frontier models on this complex multidisciplinary reasoning test
- GDPval-AA: Outperforms OpenAI GPT-5.2 by approximately 144 Elo points on economically valuable knowledge work tasks (finance, legal, etc.)
- BrowseComp: Best-in-class performance on locating hard-to-find information online
- SWE-bench Verified: Achieved 81.42% with prompt modification across 25 trials
1M Token Context Window
Claude Opus 4.6 is the first Opus-class model to offer a 1 million token context window in beta. This enables the model to maintain more information while working with large codebases or conducting extended conversations.
On the 8-needle 1M variant of MRCR v2—a needle-in-a-haystack benchmark testing retrieval of information “hidden” in vast amounts of text—Opus 4.6 scored 76%, while Sonnet 4.5 scored only 18.5%. This represents a qualitative shift in addressing “context rot,” the performance degradation that typically occurs as conversations exceed certain token counts.
New Developer Features
The Claude Developer Platform introduces several new capabilities:
Adaptive Thinking
Previously, developers faced a binary choice of enabling or disabling extended thinking. Adaptive Thinking allows Claude to automatically use extended thinking when helpful. Developers can adjust across four effort levels (low, medium, high, max).
Context Compaction (Beta)
To address context window limits during long-running conversations and agentic tasks, Context Compaction automatically summarizes and replaces older context. This enables Claude to perform longer tasks without hitting limits.
128k Output Tokens
Support for outputs up to 128,000 tokens allows Claude to complete larger-output tasks without breaking them into multiple requests.
US-only Inference
For workloads requiring execution within the United States, US-only Inference is available at 1.1× token pricing.
Agent Teams in Claude Code
Claude Code introduces Agent Teams as a research preview. Developers can now spin up multiple agents that work in parallel and coordinate autonomously—ideal for tasks that split into independent, read-heavy work like codebase reviews.
Users can take over any subagent directly using Shift+Up/Down or tmux.
Enhanced Office Tool Integration
Claude in Excel now handles long-running and harder tasks with improved performance, including planning before acting, ingesting unstructured data and inferring the right structure without guidance, and handling multi-step changes in one pass.
Claude in PowerPoint launches in research preview, reading layouts, fonts, and slide masters to stay on brand. It supports building from templates or generating full decks from descriptions. Available for Max, Team, and Enterprise plans.
Continued Safety Focus
Intelligence gains do not come at the cost of safety. On automated behavioral audits, Opus 4.6 showed low rates of misaligned behaviors such as deception, sycophancy, encouragement of user delusions, and cooperation with misuse. Overall alignment matches Opus 4.5, previously Anthropic’s most-aligned frontier model.
Opus 4.6 also shows the lowest rate of over-refusals—failing to answer benign queries—of any recent Claude model.
Anthropic conducted its most comprehensive safety evaluation set for any model, including new evaluations for user wellbeing, more complex tests of refusal capabilities for potentially dangerous requests, and updated evaluations of surreptitious harmful actions. Given enhanced cybersecurity capabilities, six new cybersecurity probes were developed to detect different forms of potential misuse.
Pricing
Claude Opus 4.6 pricing remains at $5/$25 per million tokens (input/output). Premium pricing applies for prompts exceeding 200k tokens ($10/$37.50 per million input/output tokens), available only on the Claude Developer Platform.
The model is available today on claude.ai, the Claude API, and major cloud platforms. Developers can use claude-opus-4-6 via the API.
For detailed evaluation results and safety assessments, refer to the official System Card.
関連記事
Reddit「r/ClaudeAI」で議論。ベテラン開発者が問う「AIが急速進化する中、キャリア戦略は」
18年の組込みLinux開発経験を持つエンジニアがReddit「r/ClaudeAI」で投げかけた問い「what's your career bet when AI evolves this fast?」が264件のコメントを集め、AIエンジニアのキャリア計画が「5年先から2年先も見えない」時代に突入していることを示している。
Reddit「r/ClaudeAI」で議論。ベテラン開発者が問う「AIが急速進化する中、キャリア戦略は」
18年の組込みLinux開発経験を持つエンジニアがReddit「r/ClaudeAI」で投げかけた問い「what's your career bet when AI evolves this fast?」が264件のコメントを集め、AIエンジニアのキャリア計画が「5年先から2年先も見えない」時代に突入していることを示している。
Claude Opus 4.6リリース: コーディングエージェント能力が業界最高水準に到達
Anthropicが最新モデルClaude Opus 4.6を発表。Terminal-Bench 2.0でトップスコアを達成し、1Mトークンコンテキストウィンドウ、Agent Teams、Context Compaction等の新機能を搭載。
人気記事
ChatGPT(OpenAI)とClaude(Anthropic)の機能比較 2026年版。コーディング・長文解析・コスト・API料金の違いを検証
ChatGPT(GPT-4o/o3)とClaude(Sonnet 4.6/Opus 4.5)を2026年時点の最新情報で比較する。コーディング能力、長文処理、日本語品質、API料金、無料プランの違いをSWE-benchなどのベンチマーク結果とともに解説する。
【2026年2月20日 所感】「AIがコードを書く」は仮説から現実になった——しかし私たちはその意味をまだ消化できていない
2026年2月20日に観測したコーディングエージェント関連ニュースの総括と所感。Anthropicの自律性研究、cmux、MJ Rathbunのエージェント事故、HN「外骨格 vs チーム」論争、Stripe Minions週1000件PR、Taalas 17k tokens/sec——朝から夜までの流れを通じて見えてきた「AIがコードを書く時代」の実相を考察する。
868のスキルをnpx 1コマンドで——「Antigravity Awesome Skills」が主要AIコーディングエージェントの共通スキル基盤になりつつある
Claude Code・Gemini CLI・Codex CLI・Cursor・GitHub Copilotなど主要AIコーディングアシスタントを横断する868以上のスキルライブラリ「Antigravity Awesome Skills」(v5.4.0)を詳細分析。Anthropic・Vercel・OpenAI・Supabase・Microsoftの公式スキルを統合した設計思想、ロール別バンドル・ワークフロー機能、SKILL.mdによる相互運用性のアーキテクチャを解説する。
最新記事
AIエージェント間通信の標準化競争が始まる——AquaとAgent Semantic Protocolが同日登場
2026年2月23日、Hacker Newsに2つのAIエージェント通信プロジェクトが同日掲載された。Go製CLI「Aqua」とセマンティックルーティングを実装する「Agent Semantic Protocol」は、MCPが解決できないP2P・非同期通信の課題に取り組む。
Claude Sonnet 4.6、無料・Proプランのデフォルトモデルに——社内テストでOpus 4.5を59%の確率で上回る
Anthropicは2026年2月17日にリリースしたClaude Sonnet 4.6を、claude.aiの無料・Proプランのデフォルトモデルに設定した。価格はSonnet 4.5と同額の$3/$15 per 1Mトークン。社内評価ではコーディングエージェント用途でOpus 4.5を上回る結果が出ている。
GoogleがOpenClaw経由のGemini利用ユーザーのアカウントを永久停止——月額$250請求継続のまま
2026年2月23日、Hacker Newsで140pt/107コメントを集めたレポートによると、GoogleはOpenClaw(サードパーティクライアント)経由でGeminiを使用していたGoogle AI Pro/Ultraユーザーを予告なしに永久停止した。技術的・経済的背景を整理する。