大規模言語モデル(LLM)とは何か? その仕組みと実用化まで
登壇したのは、グーグル・クラウド・ジャパン合同会社 ソリューションズアーキテクトの中井悦司氏と、同社のAI/ML 事業開発部長である下田 倫大氏の2人。まず中井氏がセッションのテーマである大規模言語モデル(LLM)の基礎知識を解説した。
ウィキペディアで「言語モデル」を調べると、「単語列に対する確率分布を表わすもの」とある。中井氏は、世の中に存在する大量の自然言語で書かれたテキスト文書に対し、その文書がどれほど「ありそう」なものなのかを確率で表現するものが言語モデルであると説明した。
言語モデルの利用例として、文章の次に来る単語の予測が挙げられる。例えば、"This is a ……"とあると、多くの日本人は"pen"と想像することが多い。そして言語モデルなら「This is a pen」という文章が存在する確率はそれなりに高いと判断する。一方で、文法的に誤った単語「the」を続けると、「This is a the」となるが、言語モデルは、このような文が存在する確率はゼロに近いと判断する。
大規模言語モデル(LLM)とは、その根底にあるのは基本的に「次の単語を予測する」というシンプルな言語モデルである。しかし、そのモデルを大規模にすることにより、予測精度が上昇する。中井氏は、2017年にGoogleの研究者らが中心となり、言語モデルの精度を向上させるための「Attention機構」の発明について言及した。これにより、言語モデルの精度が向上し、実用的なレベルで使用可能となった。
中井氏は、GoogleではPaLM 2と呼ばれる大規模言語モデルを開発したことを紹介し「既に実用化されていて、Google Cloudのさまざまなプロダクトのバックエンドとして使われています。皆さんもお試しいただければと思います」と呼びかけた。