AI Writes the Code, Humans Review It: Stripe's Minions Merges 1,000+ PRs Per Week in Production
Stripe published Part 2 of its internal coding agent 'Minions,' which autonomously generates and merges over 1,000 Pull Requests weekly in a high-reliability payment infrastructure environment. This real-world deployment marks a clear shift from AI-assisted coding to AI-led coding.
Stripe published Part 2 of its internal coding agent “Minions” on February 19, 2026. The opening line of the official blog sets the tone for where AI coding agents stand today:
“Minions merges over 1,000 pull requests per week. Humans review the code, but Minions writes it end-to-end.”
This isn’t framing AI as a coding assistant. This is a full role reversal — AI does the coding, humans do the reviewing — deployed in one of the world’s most critical financial payment infrastructures.
Background: Part 1’s One-Shot, End-to-End Design
Part 1 (published February 9, 2026) established Minions’ core design philosophy. “One-shot” means that once a human provides instructions, the agent autonomously completes the entire workflow:
- Planning — task decomposition and implementation strategy
- Implementation — writing the code
- Testing — running automated tests and fixing failures
- PR creation — pushing a reviewable diff
Human involvement is limited to the final review phase. This end-to-end autonomy is what enables 1,000+ PRs per week.
What Part 2 Reveals
Part 2 details how the system operates in actual production. The significance is amplified by Stripe’s context: the company processes payments for millions of businesses worldwide. Code quality failures translate directly into financial risk — and yet 1,000+ AI-generated PRs are being merged each week.
The Fundamental Question HN Raised
Following the Part 2 publication, Hacker News surfaced a critical question:
“With 1,000 PRs a week, is human review actually meaningful, or is it just rubber-stamping? Isn’t this the same as people skimming long PRs without really reading them?”
This concern is legitimate. As AI-generated code volume increases, the cognitive bandwidth available for genuine review decreases. If reviewers develop a bias that “AI-generated code is trustworthy,” the result could be riskier than the era when humans wrote everything.
”Review Fatigue” as an Emerging Risk
Traditional code review involved questioning intent and proposing better implementations. How does that change when reviewing AI-generated code?
- Reading costs: AI-generated code is often verbose and structurally different from human code
- Accountability ambiguity: When a bug surfaces, does “the AI wrote it” serve as exculpation?
- Skill atrophy: Can engineers maintain coding competence when their primary role becomes reviewer?
Stripe likely has answers to these questions internally, but the industry at large does not.
The Broader Trend
Stripe’s case is not isolated. Since late 2025, multiple major tech companies have moved toward similar systems:
- Anthropic: Autonomous operation time for Claude Code has doubled over the past six months (per February 2026 research)
- Google DeepMind: AlphaCode 2 performs at the top 12% in competitive programming
- Microsoft GitHub: Copilot Workspace advancing toward end-to-end agent automation
The 1,000+ PR/week figure should be read not as a Stripe-specific metric, but as an industry indicator: we are entering the phase where AI writes the code.
Redefining Due Diligence
The practical implication for engineering organizations is clear. Adopting coding agents is not about “improving engineer productivity” — it’s about transforming the engineer’s role. The shift is from “people who write code” to “people who evaluate and direct what agents write.”
The model Stripe has deployed in production will likely become the default for many engineering organizations within years. What remains unclear is whether the scarcer skill will be “engineers who can write code” or “engineers who can meaningfully review what agents produce.”
Source: Stripe Dev Blog - Minions: Stripe’s One-Shot End-to-End Coding Agents (Part 2)
関連記事
「コードを書くのはAI、レビューするのは人間」——StripeのMinionsが週1000件超のPRを本番稼働でマージ
Stripeが自社開発コーディングエージェント「Minions」のPart 2を公開。週1000件以上のPull Requestを自律的に生成・マージするシステムが、金融決済インフラという高信頼性領域で実際に稼働している。「人間がコードをゼロから書く」時代の終わりを示す最前線事例を詳細に解説する。
Coding Agent Skill - Clawdbotでコーディングエージェントを統合
Codex CLI、Claude Code、OpenCode、Pi Coding Agentなど、主要なコーディングエージェントをClawdbotから統合利用する方法を解説します。
Claude Codeに28個の公式プラグインが存在 - ほとんど知られていない機能拡張の全容
RedditユーザーがClaude Codeの28個の公式プラグインを発見。TypeScript LSP、セキュリティスキャン、context7ドキュメント検索、Playwright自動化など。多くが未文書化。
人気記事
ChatGPT(OpenAI)とClaude(Anthropic)の機能比較 2026年版。コーディング・長文解析・コスト・API料金の違いを検証
ChatGPT(GPT-4o/o3)とClaude(Sonnet 4.6/Opus 4.5)を2026年時点の最新情報で比較する。コーディング能力、長文処理、日本語品質、API料金、無料プランの違いをSWE-benchなどのベンチマーク結果とともに解説する。
【2026年2月20日 所感】「AIがコードを書く」は仮説から現実になった——しかし私たちはその意味をまだ消化できていない
2026年2月20日に観測したコーディングエージェント関連ニュースの総括と所感。Anthropicの自律性研究、cmux、MJ Rathbunのエージェント事故、HN「外骨格 vs チーム」論争、Stripe Minions週1000件PR、Taalas 17k tokens/sec——朝から夜までの流れを通じて見えてきた「AIがコードを書く時代」の実相を考察する。
868のスキルをnpx 1コマンドで——「Antigravity Awesome Skills」が主要AIコーディングエージェントの共通スキル基盤になりつつある
Claude Code・Gemini CLI・Codex CLI・Cursor・GitHub Copilotなど主要AIコーディングアシスタントを横断する868以上のスキルライブラリ「Antigravity Awesome Skills」(v5.4.0)を詳細分析。Anthropic・Vercel・OpenAI・Supabase・Microsoftの公式スキルを統合した設計思想、ロール別バンドル・ワークフロー機能、SKILL.mdによる相互運用性のアーキテクチャを解説する。
最新記事
AIエージェント間通信の標準化競争が始まる——AquaとAgent Semantic Protocolが同日登場
2026年2月23日、Hacker Newsに2つのAIエージェント通信プロジェクトが同日掲載された。Go製CLI「Aqua」とセマンティックルーティングを実装する「Agent Semantic Protocol」は、MCPが解決できないP2P・非同期通信の課題に取り組む。
Claude Sonnet 4.6、無料・Proプランのデフォルトモデルに——社内テストでOpus 4.5を59%の確率で上回る
Anthropicは2026年2月17日にリリースしたClaude Sonnet 4.6を、claude.aiの無料・Proプランのデフォルトモデルに設定した。価格はSonnet 4.5と同額の$3/$15 per 1Mトークン。社内評価ではコーディングエージェント用途でOpus 4.5を上回る結果が出ている。
GoogleがOpenClaw経由のGemini利用ユーザーのアカウントを永久停止——月額$250請求継続のまま
2026年2月23日、Hacker Newsで140pt/107コメントを集めたレポートによると、GoogleはOpenClaw(サードパーティクライアント)経由でGeminiを使用していたGoogle AI Pro/Ultraユーザーを予告なしに永久停止した。技術的・経済的背景を整理する。