AGENTS.mdはコーディングエージェントのパフォーマンスを低下させる：arXiv論文が示す衝撃的な結論

コーディングエージェントの開発現場で広く推奨されているAGENTS.mdなどのリポジトリコンテキストファイルが、実際にはエージェントのパフォーマンスを低下させている可能性があることが、2026年2月12日に公開されたarXiv論文「Evaluating AGENTS.md: Are Repository-Level Context Files Helpful for Coding Agents?」で明らかになった。

研究の背景

多くのコーディングエージェント開発者（Claude Code、Cursor、GitHub Copilotなど）は、リポジトリにAGENTS.mdファイルを配置することを強く推奨している。これらのファイルは、エージェントがリポジトリを理解し、適切なコーディングタスクを実行するためのコンテキスト情報を提供するものとされてきた。

しかし、この慣行が実際に効果的であるかを厳密に検証した研究はこれまで存在しなかった。

主要な発見

研究チームは、複数のコーディングエージェントとLLMを用いて、2つの異なる設定でAGENTS.mdの効果を評価した：

SWE-benchタスク：人気のあるリポジトリからの既存タスクに、エージェント開発者の推奨に従ってLLMが生成したコンテキストファイルを使用
実際のリポジトリ：開発者が手動で作成したコンテキストファイルを含むリポジトリからの課題コレクション

1. タスク成功率の低下

AGENTS.mdなどのコンテキストファイルを使用した場合、リポジトリコンテキストを全く提供しない場合と比較してタスク成功率が低下する傾向が見られた。これは、コンテキストファイルが有益であるという従来の想定と真っ向から対立する結果である。

2. 推論コストの大幅増加

コンテキストファイルを使用すると、推論コストが20%以上増加することが確認された。これは、トークン使用量の増加に起因する。

3. 行動変化の分析

コンテキストファイルの有無によるエージェントの行動変化も観察された：

LLM生成のコンテキストファイル：より広範なテスト実行とファイル探索を促進
開発者提供のコンテキストファイル：同様に広範な探索を促進
指示の尊重：エージェントはコンテキストファイルの指示に従う傾向が強い

4. 根本原因の特定

研究チームは、パフォーマンス低下の原因を次のように結論付けた：

コンテキストファイルに記載された不要な要件がタスクを困難にしている。

実用的な推奨事項

研究結果を踏まえ、論文は次の推奨事項を提示している：

人間が書くコンテキストファイルは、最小限の要件のみを記述すべきである。

具体的には：

避けるべき内容：
- 過度に詳細なガイドライン
- すべての可能なシナリオをカバーしようとする包括的な指示
- タスクに直接関係しない一般的な開発原則
含めるべき内容：
- そのタスクに直接必要な最小限の情報
- リポジトリ固有の重要な制約
- エージェントが自力で発見できない重要なコンテキスト

業界への影響

この研究結果は、コーディングエージェントの利用が急速に拡大している現在の開発現場に重要な示唆を与える。

エージェント開発者への影響

Claude Code、Cursor、GitHub Copilotなどのエージェント開発チームは、AGENTS.mdの推奨方法を見直す必要がある可能性がある。特に、「詳細であるほど良い」という従来の想定は再考されるべきである。

開発者への影響

既にAGENTS.mdを導入している開発者は、次のアクションを検討すべきである：

既存のAGENTS.mdを見直し、不要な要件を削除
本当に必要な最小限の情報のみに絞り込む
パフォーマンスメトリクスを測定し、変更前後で比較

コスト削減の可能性

推論コストが20%以上削減できる可能性があることは、大規模なエージェント利用組織にとって重要な経済的インパクトを持つ。API利用料金が高騰している現在、この最適化は無視できない。

研究の限界と今後の展望

論文は次の点を今後の研究課題として挙げている：

より大規模なリポジトリでの検証
異なるタイプのタスクでの効果測定
コンテキストファイルの最適な構造の解明
エージェントごとの最適なコンテキスト提供方法の比較

まとめ

「良かれと思って」導入されたAGENTS.mdが、実際にはエージェントのパフォーマンスを低下させ、コストを増加させている可能性がある。この研究は、ベストプラクティスとされてきた慣行を実証的に検証することの重要性を示している。

コーディングエージェントの利用者は、この研究結果を踏まえ、自身のAGENTS.mdを見直すことで、パフォーマンス向上とコスト削減の両方を実現できる可能性がある。

論文リンク: arXiv:2602.11988
著者: Thibaud Gloaguen他
公開日: 2026年2月12日
評価環境: SWE-bench、複数のコーディングエージェント・LLM

この記事をシェア

Twitter Facebook

AGENTS.mdはコーディングエージェントのパフォーマンスを低下させる：arXiv論文が示す衝撃的な結論

研究の背景

主要な発見

1. タスク成功率の低下

2. 推論コストの大幅増加

3. 行動変化の分析

4. 根本原因の特定

実用的な推奨事項

業界への影響

エージェント開発者への影響

開発者への影響

コスト削減の可能性

研究の限界と今後の展望

まとめ

この記事をシェア

関連記事

Claude Codeに28個の公式プラグインが存在 - ほとんど知られていない機能拡張の全容

KimiがOpenClawをネイティブ統合 - ブラウザ内で5,000以上のスキルと40GBストレージを提供

OpenClaw v2026.2.14リリース - 大規模セキュリティ強化と100以上のバグ修正を実施

人気記事

Claude Code v2.1.93 リリース - PreToolUseフック延期決定やフリッカーFREE渲染など

Claude Code v2.1.92 リリース - forceRemoteSettingsRefreshやBedrockセットアップウィザードなど

Claude Code v2.1.84 リリース - PowerShellツールプレビューと環境設定の強化

最新記事

Claude Code v2.1.93 リリース - PreToolUseフック延期決定やフリッカーFREE渲染など

Claude Code v2.1.92 リリース - forceRemoteSettingsRefreshやBedrockセットアップウィザードなど

Claude Code v2.1.91 リリース - MCPツール結果の永続化とEditツールの最適化

他のAIツールも探す