AGENTS.mdはコーディングエージェントのパフォーマンスを低下させる:arXiv論文が示す衝撃的な結論
SWE-benchを用いた実験により、AGENTS.mdなどのリポジトリコンテキストファイルがタスク成功率を低下させ、推論コストを20%以上増加させることが判明。多くのエージェント開発者が推奨する慣行に疑問を投げかける研究結果。
コーディングエージェントの開発現場で広く推奨されているAGENTS.mdなどのリポジトリコンテキストファイルが、実際にはエージェントのパフォーマンスを低下させている可能性があることが、2026年2月12日に公開されたarXiv論文「Evaluating AGENTS.md: Are Repository-Level Context Files Helpful for Coding Agents?」で明らかになった。
研究の背景
多くのコーディングエージェント開発者(Claude Code、Cursor、GitHub Copilotなど)は、リポジトリにAGENTS.mdファイルを配置することを強く推奨している。これらのファイルは、エージェントがリポジトリを理解し、適切なコーディングタスクを実行するためのコンテキスト情報を提供するものとされてきた。
しかし、この慣行が実際に効果的であるかを厳密に検証した研究はこれまで存在しなかった。
主要な発見
研究チームは、複数のコーディングエージェントとLLMを用いて、2つの異なる設定でAGENTS.mdの効果を評価した:
- SWE-benchタスク:人気のあるリポジトリからの既存タスクに、エージェント開発者の推奨に従ってLLMが生成したコンテキストファイルを使用
- 実際のリポジトリ:開発者が手動で作成したコンテキストファイルを含むリポジトリからの課題コレクション
1. タスク成功率の低下
AGENTS.mdなどのコンテキストファイルを使用した場合、リポジトリコンテキストを全く提供しない場合と比較してタスク成功率が低下する傾向が見られた。これは、コンテキストファイルが有益であるという従来の想定と真っ向から対立する結果である。
2. 推論コストの大幅増加
コンテキストファイルを使用すると、推論コストが20%以上増加することが確認された。これは、トークン使用量の増加に起因する。
3. 行動変化の分析
コンテキストファイルの有無によるエージェントの行動変化も観察された:
- LLM生成のコンテキストファイル:より広範なテスト実行とファイル探索を促進
- 開発者提供のコンテキストファイル:同様に広範な探索を促進
- 指示の尊重:エージェントはコンテキストファイルの指示に従う傾向が強い
4. 根本原因の特定
研究チームは、パフォーマンス低下の原因を次のように結論付けた:
コンテキストファイルに記載された不要な要件がタスクを困難にしている。
実用的な推奨事項
研究結果を踏まえ、論文は次の推奨事項を提示している:
人間が書くコンテキストファイルは、最小限の要件のみを記述すべきである。
具体的には:
-
避けるべき内容:
- 過度に詳細なガイドライン
- すべての可能なシナリオをカバーしようとする包括的な指示
- タスクに直接関係しない一般的な開発原則
-
含めるべき内容:
- そのタスクに直接必要な最小限の情報
- リポジトリ固有の重要な制約
- エージェントが自力で発見できない重要なコンテキスト
業界への影響
この研究結果は、コーディングエージェントの利用が急速に拡大している現在の開発現場に重要な示唆を与える。
エージェント開発者への影響
Claude Code、Cursor、GitHub Copilotなどのエージェント開発チームは、AGENTS.mdの推奨方法を見直す必要がある可能性がある。特に、「詳細であるほど良い」という従来の想定は再考されるべきである。
開発者への影響
既にAGENTS.mdを導入している開発者は、次のアクションを検討すべきである:
- 既存のAGENTS.mdを見直し、不要な要件を削除
- 本当に必要な最小限の情報のみに絞り込む
- パフォーマンスメトリクスを測定し、変更前後で比較
コスト削減の可能性
推論コストが20%以上削減できる可能性があることは、大規模なエージェント利用組織にとって重要な経済的インパクトを持つ。API利用料金が高騰している現在、この最適化は無視できない。
研究の限界と今後の展望
論文は次の点を今後の研究課題として挙げている:
- より大規模なリポジトリでの検証
- 異なるタイプのタスクでの効果測定
- コンテキストファイルの最適な構造の解明
- エージェントごとの最適なコンテキスト提供方法の比較
まとめ
「良かれと思って」導入されたAGENTS.mdが、実際にはエージェントのパフォーマンスを低下させ、コストを増加させている可能性がある。この研究は、ベストプラクティスとされてきた慣行を実証的に検証することの重要性を示している。
コーディングエージェントの利用者は、この研究結果を踏まえ、自身のAGENTS.mdを見直すことで、パフォーマンス向上とコスト削減の両方を実現できる可能性がある。
論文リンク: arXiv:2602.11988
著者: Thibaud Gloaguen他
公開日: 2026年2月12日
評価環境: SWE-bench、複数のコーディングエージェント・LLM
関連記事
Claude Codeに28個の公式プラグインが存在 - ほとんど知られていない機能拡張の全容
RedditユーザーがClaude Codeの28個の公式プラグインを発見。TypeScript LSP、セキュリティスキャン、context7ドキュメント検索、Playwright自動化など。多くが未文書化。
KimiがOpenClawをネイティブ統合 - ブラウザ内で5,000以上のスキルと40GBストレージを提供
Moonshot AIのKimi.comがOpenClawをブラウザタブ内でネイティブサポート。24時間365日稼働、ClawHub経由で5,000以上のスキルアクセス、40GBクラウドストレージ、プロ級検索機能を提供。
OpenClaw v2026.2.14リリース - 大規模セキュリティ強化と100以上のバグ修正を実施
OpenClawがv2026.2.14をリリース。広範なセキュリティ改善、TUI安定性向上、メモリシステム最適化、チャンネル・エージェント・ツール全体で100以上のバグ修正を実施。
人気記事
ChatGPT(OpenAI)とClaude(Anthropic)の機能比較 2026年版。コーディング・長文解析・コスト・API料金の違いを検証
ChatGPT(GPT-4o/o3)とClaude(Sonnet 4.6/Opus 4.5)を2026年時点の最新情報で比較する。コーディング能力、長文処理、日本語品質、API料金、無料プランの違いをSWE-benchなどのベンチマーク結果とともに解説する。
【2026年2月20日 所感】「AIがコードを書く」は仮説から現実になった——しかし私たちはその意味をまだ消化できていない
2026年2月20日に観測したコーディングエージェント関連ニュースの総括と所感。Anthropicの自律性研究、cmux、MJ Rathbunのエージェント事故、HN「外骨格 vs チーム」論争、Stripe Minions週1000件PR、Taalas 17k tokens/sec——朝から夜までの流れを通じて見えてきた「AIがコードを書く時代」の実相を考察する。
868のスキルをnpx 1コマンドで——「Antigravity Awesome Skills」が主要AIコーディングエージェントの共通スキル基盤になりつつある
Claude Code・Gemini CLI・Codex CLI・Cursor・GitHub Copilotなど主要AIコーディングアシスタントを横断する868以上のスキルライブラリ「Antigravity Awesome Skills」(v5.4.0)を詳細分析。Anthropic・Vercel・OpenAI・Supabase・Microsoftの公式スキルを統合した設計思想、ロール別バンドル・ワークフロー機能、SKILL.mdによる相互運用性のアーキテクチャを解説する。
最新記事
AIエージェント間通信の標準化競争が始まる——AquaとAgent Semantic Protocolが同日登場
2026年2月23日、Hacker Newsに2つのAIエージェント通信プロジェクトが同日掲載された。Go製CLI「Aqua」とセマンティックルーティングを実装する「Agent Semantic Protocol」は、MCPが解決できないP2P・非同期通信の課題に取り組む。
Claude Sonnet 4.6、無料・Proプランのデフォルトモデルに——社内テストでOpus 4.5を59%の確率で上回る
Anthropicは2026年2月17日にリリースしたClaude Sonnet 4.6を、claude.aiの無料・Proプランのデフォルトモデルに設定した。価格はSonnet 4.5と同額の$3/$15 per 1Mトークン。社内評価ではコーディングエージェント用途でOpus 4.5を上回る結果が出ている。
GoogleがOpenClaw経由のGemini利用ユーザーのアカウントを永久停止——月額$250請求継続のまま
2026年2月23日、Hacker Newsで140pt/107コメントを集めたレポートによると、GoogleはOpenClaw(サードパーティクライアント)経由でGeminiを使用していたGoogle AI Pro/Ultraユーザーを予告なしに永久停止した。技術的・経済的背景を整理する。