自動運転を加速させるデータセットの開発
続けて、青木氏はチューリングが開発するマルチモーダル生成AI「Heron」について触れた。日本語の入出力と画像の入力に対応したHeronでは、テキストとイメージを入力すると、文脈を理解した自然な文章が生成・提供される。モデル群も最大700億パラメータと世界最大規模(リリース当時)で、Githubへの文章出力やHugging Faceを活用したデモ動画の作成にも対応している。
「Hugging Faceで触れるようにしておくと、エンジニアのように自分で物が動かせる人間だけではなく、動かせない人に対してもデモで訴求できる」と有用性を語る青木氏。頭にあるイメージをリアルタイムに出力できることで、より直感的にアイディアを伝えられるというのだ。
Heronを公開した背景にあるのはユーザーの思いだ。自動運転によるドライブ中は「あそこの店に入りたい」「あの車は避けたい」といった要望を反映させるため、リアルタイムに文章を打ち込んでコードを変更することが必要になる。LLMに「視覚」を与えたHeronなら、ユーザーの意図をより正確に汲み取れる可能性がある。
ただし、と青木氏は課題に触れる。「LLMの学習にはかなりコストがかかる。たとえばLlama-2-70bの学習には172万GPU時間、10億円ものコストがかかっており、GPUの確保も容易ではない。加えてこうした学習を可能にするには、機能性が担保できる量と質を兼ね備えたデータセットも不可欠だ」
このデータセットについて、チューリングでは運転手を6人ほど雇い、研究拠点の柏から出発し鎌倉や日光まで走行データを収集する体制を構築した。累計で8000時間を超えるデータを集め、都内のサービスカーに搭載したカメラやセンサーの情報と併せてデータを集めている。
また、同社ではマルチモーダルモデル向けの専用計算基盤として96基のNVIDIA H100 GPUを搭載した大規模GPUクラスタ「Gaggle Cluster」を構築しており、2024年9月に本格稼働開始を予定しているという。青木氏は「自分たちでサーバーGPUクラスターを持つ企業やその知見を持つ者は多くない」と胸を張る一方、「そもそも、HPC的なインフラを組み立てられ、かつAIやGPUの使い方に詳しい方はなかなかいない」と人材不足の現状にも触れた。
ハードとソフトの両面から完全自動運転の実現へ
スループットとレイテンシの問題も、実証実験で明らかになった技術的課題だ。実験ではLLMをローカルに置くシステムを構成したが、デモ版よりも性能が出なかった。クラウド側に戻してみると、反応を返すまでに若干の時間を要したという。
青木氏は実運用を想定し、「エンジニアなら”推論しているな”と理解しても、ITに詳しくないユーザーからすれば”人間ならもっと早くできるのに”と不満が溜まりやすいポイントだ」と懸念を示す。「車載システムであれスマートフォンであれ、ユーザーがシステムに接する部分、つまりエッジ側でどれだけ早く動かせるかが戦いのミソになる」というのが青木氏の所感だ。
とくに車体制御については「乗っている人の安全をどう確保するか」が最大の問題だ。LLMをクラウド側に上げてしまうと、トンネルなど通信環境が不安定な状況下ではレイテンシの秒数も甚大なものになり、車の安全が確保できなくなる。
この点について青木氏は、独自チップを制作することをチューリングで行っている対処法として挙げた。
独自チップについてはGPU性能こそ飛躍的に向上しているものの、エッジデバイスではこうした発展がかなり先になるという。「スマホやデジカメなど、組み込み系の強い製品の多くは専用のチップを搭載している」ことから、同社でも車載可能な独自のTransformer用チップの開発に着手している。
「自動運転の主役はOS系のエンジニアからAIエンジニアになってきている。自然言語処理や画像認識といったカテゴリに”自動運転”が入ってもいいぐらい、国際会議でフィーチャーされている」と実感を語る青木氏。E2Eでの自動運転をイギリスでやってみようという企業も出てきており、香港や上海、台湾といったアジア系の文化圏でも研究が進んでいる。
自動運転は多くの企業が取り組んだが、2012年から2017年ごろにかけてそのほとんどが撤退した。この理由について、青木氏は「お金を作るポイントが資金調達しかなかったため、企業の視線がユーザーに向かなかった」からだと分析する。
講演の最後に青木氏は、「運転はさまざまなコンテクストを理解しなければならないので、そもそも頭がよくないとできない行動だ」と主張する。だからこそ完全自動運転には優れた「脳」をもつAIが必須なのだ。そのうえで、車に組み込むソフトウェアの安全性を担保するためには反応や判断の「速度」が重要であり、チップの設計製造や電子回路にもこだわっていく必要がある。
「我々はAIソフトウェアの領域から入っているが、車がどう動き、ユーザーがどう考えているかもちゃんと理解しなければならない。だからこそ、ハードウェア・ソフトウェアの両方をやっていく」と、今後の方針を示して講演は終了した。