研究者が語る、生成AIの得意/不得意とは?
まず森崎氏は、ソフトウェアエンジニアリングの世界で生成AIのブームが始まったのは昨年、あるいは一昨年あたりからだと指摘した。それ以前にもソースコードを学習させた「OpenAI Codex」などのモデルがいくつか存在していたが、大きく期待されていたわけではなく、生成AIが日常会話レベルのやり取りができるようになったところで急速に注目を集めるようになったと、現在までの流れを整理した。
研究者の間でも大きな変化があり、2023年までは生成AIを評価する専用のベンチマークデータは存在しなかったが、2024年に入ってから、生成AI専用のベンチマークデータが登場し、生成AIでしかできない手法が続々と登場している。
そして、森崎氏が最新の研究例を見渡して生成AIが得意とする作業として挙げたのが、元データを要約するような作業だ。ほかにもテストコードを人手で用意して、その上で生成AIにプロダクトコードを生成させる作業も向いているという。テストコードで合格、不合格を判定できるので、誤りに気づきやすい。
一方で不得意な作業としては、解釈させて一部を補足させるような作業が挙げられた。簡単なものなら問題ないのだが、少し複雑になるとわけの分からない出力を返してくる場合も多い。しかも「自信満々に、最後にいい感じのコメントを添えて」返してくるので、人間も騙されやすいと指摘した。
ここから森崎氏は、要求、設計、実装、テスト、その他カテゴリに分けて、研究例を紹介しながら、それぞれの作業が生成AIにとって得意なものか、不得意なものかを森崎氏個人の感想とことわった上で話し始めた。
森崎氏がまず取り上げたのは、要求、設計の分野の研究例で、自然言語で書いた要求からモデル図(シーケンス図)を生成AIに作らせるものだ。森崎氏はこの試みについて、現時点では不得意な分野だと感想を述べた。
森崎氏は生成AIによる出力例をスライドに映しながら、「最初にこれを見たときは、すごいなと思った」と語ったが、よく見るとあちこちに誤りが残っており、これでは人間によるレビューが面倒になってしまうと感じたという。
続いて森崎氏が挙げたのは、自然言語で記述した要求から、生成AIにドメインモデリングをさせた例だ。森崎氏はこの結果について「先に挙げた例よりもかなり良い結果が出ており、構造に関しては、振る舞いよりもうまくいく傾向がある」と述べた。そして、「この場合は要求文の構造に関する制約を記載していることが多いため、その点も良い方向に働いたのではないか」と付け加えた。