先日、Stripe のエンジニアリングブログに興味深い記事が公開されました。「Minions: Stripe’s one-shot, end-to-end coding agents」というタイトルで、Stripe が社内で開発した自律型コーディングエージェント「Minions」の詳細が語られています。
週に1000件以上のプルリクエストを、人間がコードを一行も書かずに処理しているというシステムです。読んで素直に驚きました。しかしその驚きは、記事を読み進めるうちに別の形に変わっていきます。
Minions とはどんなシステムか
Minions は Stripe が内製した、完全無人のコーディングエージェントです。エンジニアが Slack でタスクを投げると、コードを書き、テストを通し、レビュー可能な状態のプルリクエストを自動で作成します。その間、人間は何もしません。
技術的な構成を整理すると、次のようになります。
ベースとなるのは Block 社がオープンソースで公開しているコーディングエージェント「Goose」をフォークしたものです。これを Stripe の開発環境に深く統合するかたちで構築されています。
実行環境は「devbox」と呼ばれる隔離されたサンドボックスで、起動まで10秒。本番環境やインターネットからは切り離されており、エージェントが自律的に動作しても外部に影響が出ない設計です。Stripe のエンジニアが日常的に使う開発環境と同一の構成でありながら、エージェント専用に用意されているところに設計の意図が見えます。
ツール連携は「Toolshed」という社内の MCP サーバーを通じて行われており、400以上のツールが使えます。ソースコード管理、CI、社内ドキュメント、チケットシステムなど、エンジニアが日常的に触るものがほぼすべて接続されています。
CI については最大2ラウンドの自動修正が走り、テストとリントを通過した状態でプルリクエストが作られます。つまり人間がレビューする時点で、コードはすでに一定の品質を満たしています。
エージェントがどのようなタスクをこなし、どんなワークフローを構築しているかは Part 2 で詳しく語られています。Part 1 と合わせて読むと、Stripe がこのシステムにどれだけ本気で取り組んでいるかが伝わってきます。
週1000件、それでも全体の15%
ここで立ち止まって考えてほしい数字があります。
Stripe Sessions 2025 で公開された数字によると、Stripe のコードマージペースは 1日1000件以上 です。週換算すると7000件を超えます。Minions が処理している週1000件は、その約15%にあたります。
数字で見ると「週1000件」は驚愕の数字です。まるでほとんどの機能開発を生成AIに移譲し、エンジニアが不要となる開発組織がついにStripe社内で築かれたのではないか、やはり生成AIは人間の仕事を本格的に奪いにきたのではないか?と思うのではないでしょうか。
しかし「週にマージされるPRの15%」と表現すると、見方が変わります。軽微な不具合修正や文言変更、ライブラリの更新作業などの「軽量にみえるが、コンテキストスイッチコストなどが安くないタスク」をAIに任せたのではないかと、この数字やストーリーから私は考えています。
ここで見えてくるのは、「AI・コーディングエージェントでの開発を軌道に乗せるために何が必要か」という仮説です。
CI/CD がエージェントの品質ゲートになる
DevOps や CI/CD に関わっている立場から見ると、このシステムの構造には別の意味もあります。
Minions は CI を通過したものしかプルリクエストにしません。つまり CI は、人間のコードに対する検証ツールであるだけでなく、AI が生成したコードに対する品質ゲートとしても機能しています。エージェントが自律的に動けるのは、CI がその出口を守っているからともいえます。
つまるところ、「Stripeだからコーディングエージェントの導入に成功している」のではなく「これまでDevOpsに関する取り組みを続けてきたからこそ、エージェントの導入がうまく行った」と考えることができます。
AI 生成コードのレビューをどう設計するか、という問いは多くの開発組織が抱えています。Stripe の答えの一つは「既存の CI/CD パイプラインをそのまま使う」でした。新たな検証の仕組みを作るのではなく、人間が積み上げてきたテストとリントのインフラを、エージェントにもそのまま適用する。この判断には、説得力があります。
おわりに
Stripe はコードを決済だけで処理しているわけではありませんでした。週に何千本ものコードを、AI と人間が並走しながら処理するインフラも同時に持っています。
決済インフラとしての Stripe の規模に驚くことはよくあります。しかし開発インフラとしての規模も、同じように規格外でした。週1000件の AI 処理、それが全体の15%。この数字の組み合わせがもっとも印象に残っています。
