オープン/クローズドで読み解くLLMの現在
生成AI活用が広がる中で、LLM(大規模言語モデル)事情も変化していると語るのは、レッドハットのスペシャリストソリューションアーキテクト、石川純平氏だ。
LLMは大きく、クローズドLLMとオープンLLMに分けることができる。クローズドLLMは、クラウドで提供される生成AIサービスで、OpenAIのChatGPTやAnthropicのClaudeなどが代表例だ。AIモデルの詳細は非公開で、利用はAPI経由。利用量に応じて課金される。一方のオープンLLMは、AIモデルが公開されているLLMだ。MetaのLlama3やMistralなどが代表例となる。AIモデルの共有を行うHugging Faceで公開されており、モデルは誰もがダウンロード可能。公開されたモデルをデプロイして動かすためにはサーバとインフラ環境は自前で用意する必要がある。
これまでは、利用の手軽さやパフォーマンス(クローズドLLMの方がオープンLLMよりも相対的に性能が高い)の面から、クローズドLLMの方が評価されてきた。しかし、昨今は両者の性能差が縮まりつつあると石川氏は述べる。実際、コーディングではトップのクローズドLLMの性能をオープンLLMがすでに上回っている状況という。中国DeepSeekが2024年5月に公開したコーディングモデルDeepSeek-Coder-V2は、同社が公開したベンチマークテスト結果においてGpt-4-Turbo-0409やClaude-3-Opusと比較しても劣らない、むしろ上回る性能を実現した。
日本語での応答や日本特有の知識を学習させたLLMも、商用利用可能なライセンスとして公開されるものが増えており、性能も良い。たとえば、国内スタートアップのELYZAが公開するLlama-3-ELYZA-JP-8Bの最新ベンチマークでは、クローズドLLMのGPT-3.5 TurboやClaude 3 haikuなどよりも高い性能を記録していると石川氏は述べる。
加えて、昨今はAIの学習/推論コストが低下している。石川氏はOpenAI創業者のひとり、アンドレイ・カーパシイ(Andrej Karpathy)氏がSNS投稿した「GPT-2発表時の5年前は学習コストに10万ドルほどかかっていたが、現在は672ドルになった」を取り上げ、ハードウェアやライブラリの進化などがコスト引き下げに貢献していることを説明。推論コストについても、OpenAIのdavinciモデルは4年前に100万トークンあたり20ドルあたりだったのが今では10セント未満だ。
「今後は高性能なモデルをより安く使えるようになり、高価なGPUサーバでなくてもLLMが動くようになる。そうなったとき、クラウドにアクセスせずオンプレミスで利用したい、顧客情報など機密情報をクラウドに送信したくない、利用用途にもよるがメガプロンプトからの出力だとコストが上がるのが辛いといった、クローズドLLMでは難しいユースケースに応える形でオープンLLMを選択する人は増えるだろう」(石川氏)
Red HatのAIの取り組み
Red HatはAIについてもオープンソースコミュニティに貢献し、エコシステムの支援を強化しながら、そこで生まれたイノベーションをビジネス価値につなげる取り組みを実践している。具体的には、同社はIBM Researchと共同でLLMのGraniteをオープンソース化している。対話やコーディング支援を行うGranite FamilyをApache 2.0ライセンスとしてHugging Face上で公開。利用した学習データについても開示するなど、透明性を担保しているのが特徴と石川氏は言う。また、Red HatとIBMによるオープンソースプロジェクト「InstructLab」ではOSSコミュニティを通じて、モデル学習のためのデータ合成や特定用途に向けたチューニングの仕組みを提供していくという。
ビジネス面では、主力製品にAI機能のRed Hat LightSpeedを実装して強化するほか、AIを開発/運用するためのプラットフォームを提供している。
プラットフォームは、ローカル環境でAI開発ができる「Red Hat Enterprise Linux AI(RHEL AI)」(デベロッパープレビュー版)と、統合MLOpsプラットフォーム「Red Hat OpenShift AI」の2つがある。
RHEL AIは、Apache 2.0ライセンスで提供されるGraniteモデルが同梱されており、更にInstructLabによるチューニングの仕組みを実装。PyTorch、モデルランタイム、NVIDIAやIntel、AMDなどのアクセラレータデバイスのドライバを含めて、OSイメージとしてパッケージ化しており、環境構築を簡素化。24時間365日の本番サポートやモデルIP補償、モデルライフサイクルの延長対応など各種サポートなどを利用できる。
一方のRed Hat OpenShift AIは、JupyterLabやPyTorchなどの実験的学習環境、TGIS ServingやvLLMなどのLLMサービングなど、学習や推論のオープンソースプロジェクトを多数取り込んだプラットフォームだ。AIをホストするだけでなく、開発や運用含めて完結することが可能と石川氏は言う。
「Red Hatが目指すAIプラットフォームは、その時点でオープンになっている最新のLLMや用途にあったものを柔軟に選択して実行でき、AIデバイスもコストや消費電力を踏まえて最適なものを選択できるオープンなプラットフォーム」と述べる石川氏。これらを基軸に、単一サーバでAI実行モデルをチューニングするのであればRHEL AIを、大規模コンテナ基盤でAI実行するのであればRed Hat OpenShift AIを採用してもらうことを目指すと話す。
「Red HatのCTO、クリス・ライト(Chris Wright)は、数千のアプリケーションとAIモデルが共存する世界が来るので、その未来に備えて今歩き出さなければならないと述べている。今は特定の生成AIを使う企業が多いが、オープンLLMの性能が上がり、利用コストが低下する中で、オープンLLMを特定用途に特化させていろんな場所で動かすのが一般的になるのは間違いない。そうした用途の基盤を提供していくということが、Red Hatの使命だと考える」(石川氏)
自宅PCでオープンLLMを実行してみる
以上、オープンLLMの現状を述べてきた石川氏だが、実感するにはやはり手を動かして体験することが一番と断言。自宅PCでオープンLLMを実行するデモを行った。
デモで使ったのは、Red Hatの開発チームが中心となってOSS開発するPodman Desktopだ。RHELに標準搭載(RHEL 8以降)された、Docker互換のあるコンテナ構築・管理・実行ツールであるPodmanのGUIツールで、WindowsやmacOS、Linux環境で利用できる。
このPodman Desktopのエクステンションに、ローカル端末でAI実行をサポートする拡張機能「Podman AI Lab」がある。チャットやコード補助、物体検知、音声認識などのユースケースをあらかじめ準備されたレシピから簡単に実行できるのが特徴だ。「AIアプリケーション開発をするとき、毎回クラウドAPIを利用するのはコストがかかる。Podman DesktopとPodman AI Labの組み合わせであれば、ローカル環境でAIを動かしてAIアプリケーションを開発できる」(石川氏)
デモでは、Podman AI Labプラグインを開いてChatBotやSummarizer、Code Generationなど各レシピカタログを紹介。その1つのChatBotを開いてモデルを一覧表示し、「Start AI App」ボタンをクリック、起動するとチャットボットのページが利用できるようになった。
「GPUではなくCPUで推論させているが、それなりのスピードで反応が返ってくることが分かる。これをぜひ自身のPCで体験してもらいたい」(石川氏)
Red Hatは「The future of AI is Open(AIの未来はオープン)」という標語を掲げている。
「オープンLLMは大きく発展しており、今以上にAI活用の可能性も広がる。Red Hatはそうしたオープンソースの可能性を信じて、ユーザーのAI活用をサポートしていきたい」(石川氏)
Red Hat でオープンソースの AI/ML イニシアチブを前進させる
Red Hat OpenShift AIに移行して、組織全体でプロダクショングレードの一貫性、柔軟性、サポートを獲得しましょう。詳細は資料のダウンロードページからご確認ください。