AGENTS.mdはコーディングエージェントのパフォーマンスを低下させる:arXiv論文が示す衝撃的な結論
SWE-benchを用いた実験により、AGENTS.mdなどのリポジトリコンテキストファイルがタスク成功率を低下させ、推論コストを20%以上増加させることが判明。多くのエージェント開発者が推奨する慣行に疑問を投げかける研究結果。
コーディングエージェントの開発現場で広く推奨されているAGENTS.mdなどのリポジトリコンテキストファイルが、実際にはエージェントのパフォーマンスを低下させている可能性があることが、2026年2月12日に公開されたarXiv論文「Evaluating AGENTS.md: Are Repository-Level Context Files Helpful for Coding Agents?」で明らかになった。
研究の背景
多くのコーディングエージェント開発者(Claude Code、Cursor、GitHub Copilotなど)は、リポジトリにAGENTS.mdファイルを配置することを強く推奨している。これらのファイルは、エージェントがリポジトリを理解し、適切なコーディングタスクを実行するためのコンテキスト情報を提供するものとされてきた。
しかし、この慣行が実際に効果的であるかを厳密に検証した研究はこれまで存在しなかった。
主要な発見
研究チームは、複数のコーディングエージェントとLLMを用いて、2つの異なる設定でAGENTS.mdの効果を評価した:
- SWE-benchタスク:人気のあるリポジトリからの既存タスクに、エージェント開発者の推奨に従ってLLMが生成したコンテキストファイルを使用
- 実際のリポジトリ:開発者が手動で作成したコンテキストファイルを含むリポジトリからの課題コレクション
1. タスク成功率の低下
AGENTS.mdなどのコンテキストファイルを使用した場合、リポジトリコンテキストを全く提供しない場合と比較してタスク成功率が低下する傾向が見られた。これは、コンテキストファイルが有益であるという従来の想定と真っ向から対立する結果である。
2. 推論コストの大幅増加
コンテキストファイルを使用すると、推論コストが20%以上増加することが確認された。これは、トークン使用量の増加に起因する。
3. 行動変化の分析
コンテキストファイルの有無によるエージェントの行動変化も観察された:
- LLM生成のコンテキストファイル:より広範なテスト実行とファイル探索を促進
- 開発者提供のコンテキストファイル:同様に広範な探索を促進
- 指示の尊重:エージェントはコンテキストファイルの指示に従う傾向が強い
4. 根本原因の特定
研究チームは、パフォーマンス低下の原因を次のように結論付けた:
コンテキストファイルに記載された不要な要件がタスクを困難にしている。
実用的な推奨事項
研究結果を踏まえ、論文は次の推奨事項を提示している:
人間が書くコンテキストファイルは、最小限の要件のみを記述すべきである。
具体的には:
-
避けるべき内容:
- 過度に詳細なガイドライン
- すべての可能なシナリオをカバーしようとする包括的な指示
- タスクに直接関係しない一般的な開発原則
-
含めるべき内容:
- そのタスクに直接必要な最小限の情報
- リポジトリ固有の重要な制約
- エージェントが自力で発見できない重要なコンテキスト
業界への影響
この研究結果は、コーディングエージェントの利用が急速に拡大している現在の開発現場に重要な示唆を与える。
エージェント開発者への影響
Claude Code、Cursor、GitHub Copilotなどのエージェント開発チームは、AGENTS.mdの推奨方法を見直す必要がある可能性がある。特に、「詳細であるほど良い」という従来の想定は再考されるべきである。
開発者への影響
既にAGENTS.mdを導入している開発者は、次のアクションを検討すべきである:
- 既存のAGENTS.mdを見直し、不要な要件を削除
- 本当に必要な最小限の情報のみに絞り込む
- パフォーマンスメトリクスを測定し、変更前後で比較
コスト削減の可能性
推論コストが20%以上削減できる可能性があることは、大規模なエージェント利用組織にとって重要な経済的インパクトを持つ。API利用料金が高騰している現在、この最適化は無視できない。
研究の限界と今後の展望
論文は次の点を今後の研究課題として挙げている:
- より大規模なリポジトリでの検証
- 異なるタイプのタスクでの効果測定
- コンテキストファイルの最適な構造の解明
- エージェントごとの最適なコンテキスト提供方法の比較
まとめ
「良かれと思って」導入されたAGENTS.mdが、実際にはエージェントのパフォーマンスを低下させ、コストを増加させている可能性がある。この研究は、ベストプラクティスとされてきた慣行を実証的に検証することの重要性を示している。
コーディングエージェントの利用者は、この研究結果を踏まえ、自身のAGENTS.mdを見直すことで、パフォーマンス向上とコスト削減の両方を実現できる可能性がある。
論文リンク: arXiv:2602.11988
著者: Thibaud Gloaguen他
公開日: 2026年2月12日
評価環境: SWE-bench、複数のコーディングエージェント・LLM
関連記事
Claude Codeに28個の公式プラグインが存在 - ほとんど知られていない機能拡張の全容
RedditユーザーがClaude Codeの28個の公式プラグインを発見。TypeScript LSP、セキュリティスキャン、context7ドキュメント検索、Playwright自動化など。多くが未文書化。
KimiがOpenClawをネイティブ統合 - ブラウザ内で5,000以上のスキルと40GBストレージを提供
Moonshot AIのKimi.comがOpenClawをブラウザタブ内でネイティブサポート。24時間365日稼働、ClawHub経由で5,000以上のスキルアクセス、40GBクラウドストレージ、プロ級検索機能を提供。
OpenClaw v2026.2.14リリース - 大規模セキュリティ強化と100以上のバグ修正を実施
OpenClawがv2026.2.14をリリース。広範なセキュリティ改善、TUI安定性向上、メモリシステム最適化、チャンネル・エージェント・ツール全体で100以上のバグ修正を実施。
人気記事
Claude Code v2.1.93 リリース - PreToolUseフック延期決定やフリッカーFREE渲染など
AnthropicがClaude Code v2.1.93をリリース。PreToolUseフックの延期決定機能、フリッカー-freeレンダリングオプション、PermissionDeniedフック、名前付きサブエージェントのタイプアヘッド対応などを含む。
Claude Code v2.1.92 リリース - forceRemoteSettingsRefreshやBedrockセットアップウィザードなど
AnthropicがClaude Code v2.1.92をリリース。forceRemoteSettingsRefreshポリシー設定、Bedrockセットアップウィザード、costコマンドの改善など多数の機能追加とバグ修正を含む。
Claude Code v2.1.84 リリース - PowerShellツールプレビューと環境設定の強化
Claude Code v2.1.84がリリース。Windows向けのPowerShellツール、環境変数によるモデル選択のカスタマイズアイドルセッション処理の改善などが含まれる。
最新記事
Claude Code v2.1.93 リリース - PreToolUseフック延期決定やフリッカーFREE渲染など
AnthropicがClaude Code v2.1.93をリリース。PreToolUseフックの延期決定機能、フリッカー-freeレンダリングオプション、PermissionDeniedフック、名前付きサブエージェントのタイプアヘッド対応などを含む。
Claude Code v2.1.92 リリース - forceRemoteSettingsRefreshやBedrockセットアップウィザードなど
AnthropicがClaude Code v2.1.92をリリース。forceRemoteSettingsRefreshポリシー設定、Bedrockセットアップウィザード、costコマンドの改善など多数の機能追加とバグ修正を含む。
Claude Code v2.1.91 リリース - MCPツール結果の永続化とEditツールの最適化
Claude Code v2.1.91ではMCPツールの結果サイズの上書き、シェル実行の制御強化、Editツールの効率改善などが行われた。