AI活用の現在地
西田氏は、GMOペパボでのAIコーディングエージェントの具体的な活用事例として、以下の3点をピックアップして紹介した。
事例1: メイン業務と並行してソフトウェアアップデート
まず初めに、本番稼働中のNext.jsアプリケーションが直面していた深刻な課題へのAI適用例として紹介された。そのアプリケーションは、「歴史的な背景から自動テストが整備されておらず、ソフトウェアアップデートができない」という状況にあり、システムの健全性を保つ上で大きな障害となっていた。
これに対し西田氏のチームは、Claude Codeを数時間連続稼働させ、アプリケーションに対するテストコードを大量に生成させた。この取り組みの結果、それまで自動テストがなかったアプリケーションのブランチカバレッジを、一気に約70%という水準まで引き上げることに成功した。
テストコードの基盤が整備された後は、Claude Codeにアップデートを試行させ、先ほど生成したテストコードを走らせるという手順を踏んだ。その後は、テストコードが通るまで、つまりエラーが出なくなるまで、Claude Codeに修正を指示し対応を行った。この一連のプロセスを経た結果、ソフトウェアアップデート作業のほとんどが自動で完了するという成果が実現した。
西田氏は、「レビューは大変でしたが、メインの業務と並行して実現できたというのは非常に大きな成果だったと感じております」と述べ、メイン業務に大きな負担をかけることなく、停滞していた重要なソフトウェアアップデートを完了できたことの価値を強調した。
事例2: コードを見ずにプロダクト改善
続いて紹介された事例は、社内向けのStreamlit製Webサービスが抱えていた課題に関するものである。このサービスは専任のチームによって運用保守が行われていたが、改善要望や不具合調査を行うには、一度専任チームに依頼する必要があり、利用のハードルがやや高いという状況があった。
この課題を解消するためにClaude Code Actionsが導入され、GitHub Issueを通じて調査や実装の指示をAIに与えられるように設定が行われた。これにより、利用者が改善要望や不具合報告をGitHub Issueに登録するだけで、あとはClaude Codeがそれを自動で拾い上げ、改修のためのプルリクエストを作成するのである。作成されたプルリクエストは、CIが実行され、その後専任チームのレビューが通れば、そのままマージされてリリースされるという流れが確立した。
この取り組みの成果として「改善や不具合修正の負荷が軽減されました。希望する改善がどんどん進むようになった」と西田氏は語る。さらに補足として、この仕組みは社内向けサービスだけでなく、お客様向けのWebサービスにおいても実現しているという。対応可能な範囲はまだ限定的であるものの、ちょっとしたUI修正などが実現できていることは、大きな一歩となった。
事例3: 欲しいツールはその場で生成
最後の事例は、あるWebサイトの実行基盤を更新する際の状況と課題について語られた。基盤を更新した後、影響範囲が広範囲に及ぶため、膨大な手動チェック作業が想定される状況であった。
この課題を解決するために、Webサイトの全ページのスクリーンショットを比較して意図しない変更がないかチェックするVisual Regression Test(VRT)を行うためのツールを、Claude Codeを用いて1分程度で生成したのである。ツールが生成された後、すぐにそのVRTツールが実行され、基盤を変える前の画像と変えた後の画像を比較し、問題がないかを自動でチェックした。
この取り組みの結果として「従来必要だったVRTツールの調査と実装の手間を大きく削減することができた」と西田氏は述べ、AIによるツール生成の即効性を強調した。
また、この「欲しいツールはその場で生成」というAI活用は、エンジニアではないメンバーも実現できていると話す。これは、社内でCursorを用いた「バイブコーディング研修」を実施した成果でもある。ビジネス職やカスタマーサポートのメンバーもこの研修を通じて得た知見を元に、自身が欲しいツールをその場で生成できるようになっており、AI活用が組織全体に浸透しているという。
数字で見る開発生産性のリアル
具体的な活用事例の紹介を終えた後、西田氏は本題である「AI導入後に開発生産性の数字が実際にどの程度変化したか」を定量的に分析した結果を解説した。
開発生産性の指標として、デプロイ頻度、変更のリードタイム、変更失敗率、サービス復旧時間からなるFour Keysに触れた上で、今回はAIコーディングエージェントの影響が最初に出ると考えられるデプロイ頻度の先行指標に着目して集計を行った。
着目した先行指標は以下の2点である。
- プルリクエストマージ頻度:1日あたりのプルリクエストがマージされる回数
- プルリクエストの作成頻度:1日あたりのプルリクエストが作成される回数
集計対象は、西田氏が所属する事業部のアプリケーションエンジニアのGitHubでの活動データだ。メンバーの増減やプロダクトの開発状況などの影響もあるため一概にAIコーディングエージェントのみの影響とは言えないとしつつも、ある程度の傾向は把握できるとして集計が行われた。
集計の結果、PRマージ頻度は、2024年前半と比較して2025年5月以降は約4倍に増加した。具体的には、Cursorの導入(2024年9月頃)で一度跳ね上がり、その後Claude Codeの導入(2025年5月頃)でさらに一段階跳ね上がったという結果が示された。
また、PR作成頻度も同様に約4倍に増加し、PRマージ頻度と同じく、Cursor導入、Claude Code導入で段階的に増加していた。
この結果に対し、西田氏は「いや、開発生産性爆増しているじゃないかって思った方いらっしゃいますか?」と会場全体に問いかけた。
しかし西田氏は、こここそが本講演の重要なポイントだと述べた。
この結果を踏まえ、西田氏は「
AI導入によって改善は明確に現れているものの、
