米Meta Platformsは、戦略ゲーム「ディプロマシー」で人間に混じって対戦し、人間より優れた成績を残すAI「CICERO」を開発したと11月22日(現地時間)発表した。
ディプロマシーは第一次世界大戦前のヨーロッパを舞台とした戦略ボードゲーム。ほかのプレイヤーとの取引や同盟など、外交で上手く立ち回ることが必要になるゲームだ。元々はボードゲームだったが、最近はWeb上でディプロマシーをプレイできるサービス「webDiplomacy」が登場している。CICEROはwebDiplomacyで人間に混じって対戦し、人間の平均の倍以上のスコアを獲得し、全プレイヤーのうち上位10%に入ったという。
CICEROは、ゲームの戦略を考えるAIに加えて、ほかのプレイヤーと自然言語で会話を交わし、その内容を読み取る自然言語処理の機能も備えている。ディプロマシーはほかのプレイヤーと外交という名の会話をしながら、同盟を組んだり、裏切ったりすることで進めていくゲームだからだ。そこでCICEROの開発ではまず、27億以上のパラメーターを持つ言語モデルをインターネット上の文書で訓練し、webDiplomacyのゲーム4万回分の会話で微調節したという。
そして、ゲームの戦略を考える部分では、チェスや囲碁のようにAI同士の対戦で学習していくという手法が使いにくいという問題があった。ディプロマシーでは人間のプレイヤーと協力してゲームを進めるが、協力する人間が最善の戦略を採るとは限らないからだ。そこでCICEROでは、人間が最善の戦略を採るとは考えず、人間が実際に採りそうな戦略を考えるようにしたとしている。
また、戦略を考えるAIを訓練する際には、教師あり学習を採用しなかった。プレイヤーとの過去の会話から戦略を考える手法を採ると、人間のプレイヤーに騙される可能性が高くなるからだ。CICEROでは代わりに、人間のプレイヤーとの会話の合理性と一貫性のバランスを取り続けるアルゴリズムを採用した。このアルゴリズムでは、人間のプレイヤーとの会話からそれぞれのプレイヤーの戦略を予測し、より優れた戦略に切り替える処理を繰り返す。
MetaはCICEROについての論文をScience誌で発表し、ソースコードをGitHubレポジトリで公開している。
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です