進化への対応が課題となるLLMの選定と実運用
開発におけるもう1つの重視ポイントは、LLMの選定とアップデートだ。
「デジタルヒューマンを実現するうえで、LLMは大きな要素を占める」と話す田島氏は、LLMの選定においてはインタラクティブ性で求められる「スピード」、文脈に沿った柔軟かつ正確な対応を実現する「クオリティ」、不適切な表現を排除する「コンテンツフィルタ」を軸に検討。これらをバランスよく実現するGPT-3.5 Turboに当初は決定していたと述べた。
しかし、そんな彼らを襲ったのはLLMモデルの頻繁なアップデートだ。各サービスの結合を進めていた2024年3月にはAnthropicからClaude 3 Opusが公開、結合テストを実施した4月にはMetaがLlama 3を公開、リリース間際の5月にはGemini 1.5 ProやOpenAIのGPT-4oが公開されるなど、激動の期間となった。
刻々と状況が変わる中、田島氏たちは前述の3つの軸で最新モデルを急いで検証を開始した。そして、バランスの良さからGPT-4o Turboに変更することを急遽決めたという。
進化の著しい領域のテクノロジーを採用する場合、こうした課題は避けては通れない。だが、その都度見直しを迫られるのは開発への影響が大きすぎる。田島氏は、LLMを採用した開発でこれら問題に左右されないためにも、「特定のLLMに依存しないアプリケーション開発」と「開発と運用における評価環境の構築」が重要と述べた。
特に、評価環境は下位モデルから上位モデルに変更した際に生じる差異をうまく修正することを可能にする。当初こうした変更は簡単と思っていた田島氏だったが、「GPT-4oはGPT-3.5と比べて性能が上がったからか、プロンプトに対して素直に従うために冗長な返答を生成してしまい、“社長”が長文を話し始める事態に陥った」と明かす。
評価環境の流れは、おおまかにプルリクエスト時のユニットテストの実行と近い感覚だと田島氏は述べる。異なるのは、初期はテスト/評価データを人的に準備する必要があること。運用が始まれば、開発フェーズと実運用で見つかった、想定した利用シナリオにはない課題や成功例を抽出して評価データに充てていくことが可能になる。
もうひとつの異なる点は、評価結果の解釈だ。LLMのテスト結果は単純に解釈できないことが多く、「LLMで解釈して決めるというやり方もあるが、まだ洗練されておらず、人間の目で評価する必要がある」と田島氏。いずれは簡略化していきたいと述べた。
今後は、より“人間らしさ”を追求すべくブラッシュアップを図りたいと述べる両氏。たとえば、社長のパーソナリティを反映した学習データの拡充、蓄積されるログを活かしたプロンプトの改善、SCSKの他ソリューションへのサービス展開を検討中と明かす。
「SCSKでは他企業や研究機関との共創で、さまざまな取り組みを推進している。興味がある方は、ぜひ連絡してほしい」(古川氏)と呼びかけ、セッションを終えた。