AIシステム開発に立ちはだかる最大の壁「評価」
そんなエンジニアが主役のAI開発において、最大のハードルとなるのが「評価」のプロセスだ。最新技術のキャッチアップやPoC(概念実証)の作成といった初期段階は、これまでのエンジニアリングスキルで難なくクリアできることが多い。

しかし、いざプロダクション環境へ移行しようとする段階で、多くのプロジェクトがつまずいてしまう。アイシア氏は、AIシステムにおける評価を「CI/CDとテストを合わせたもの」と位置づけ、その重要性を力説する。
例えば、ユーザーの指示に応じてリファクタリングやテストコード作成を行うAIエージェントを作るとしよう。初期のプロトタイプは意外とすんなり動くものだ。しかし、例えば「Pythonの出力は良いが、Ruby on Railsの出力がイマイチだ」とプロンプトを調整し始めると、途端に問題が発生する。プロンプトを書き換えたことで、他の言語での精度が落ちてしまう「リグレッション」が起きても、定量的な評価指標がなければ、その変化が「良くなったのか、悪くなったのか」すら正確に把握できない。

これは従来のシステム開発に例えれば、非常に恐ろしい状況だ。「『速度改善やります! ログは取ってないけどね、てへぺろ』みたいなのと同じ状況に陥ります」とアイシア氏が表現するように、入力も出力も自然言語という曖昧なAIの挙動を、エンジニアの「勘」だけで修正し続けることは、プロダクションレベルの品質担保においては致命的である。
理想のAI開発とは、プロンプトを変更するたびに自動で評価が走り、スコアの上下が数値化され、品質が基準を満たせば自動デプロイされる仕組みだ。すなわち「CI/CD」が整っている状態である。「AIシステムを作る上での最大の課題は、『評価』と言われています」という言葉が示す通り、高度な数学の知識よりも、テストを書き、CI/CDパイプラインを構築してきたDevOpsのスキルこそが、今のAIプロジェクトで最も求められているのだ。
