次世代AIラック「Helios」が示す、AMDのロードマップ
ハードウェアの最新動向にも触れておこう。リモートで登壇したAMDシニアフェロー・Instinct SoCチーフアーキテクト、Alan Smith氏は、現行フラッグシップGPU MI355Xの詳細と、次世代「MI400シリーズ」のスニークピークを披露した。
MI355XはCDNA4アーキテクチャ(AMDのAI・HPC向けGPUアーキテクチャの第4世代)を採用し、GPUあたり288GBのHBM3E(HBMの最新世代。世代が上がるほど容量・帯域幅が向上する)を搭載する。FP4/FP6/FP8といった低精度データフォーマット[4]に対応しており、前世代のMI300と比較しておよそ3倍のAI性能向上を実現している。「前世代では動かせなかった大規模モデルも、本世代では動かせるようになっています」とSmith氏は語った。
次世代のMI400シリーズ(フラッグシップはMI455X)は「Heliosラック」として提供される予定だ。データセンター向けに設計された完全統合型AIラックで、GPU・CPU(EPYC)・ネットワーキング(Pensando)をすべてAMD技術で統合し、1ラックに72GPUを収容する。ネットワーキングにはUEC(Ultra Ethernet Consortium)準拠のオープン仕様を採用しており、「スイッチ選択の自由をお客様に保つ」という哲学のもとで設計されている。
「AMDはシリコンだけでなく、システム全体とソフトウェアを作っています。これらすべてが組み合わさって初めて、お客様が成功できるソリューションを提供できる」──Smith氏のこの言葉は、この日のセッション全体を通じて響くテーマでもあった。
[4] 低精度データフォーマット(FP4/FP6/FP8)とは
数値を表現する際の精度(ビット数)を下げることで、計算速度の向上とメモリ使用量の削減を実現する手法。通常のFP32(32ビット浮動小数点)と比べて、FP8は4分の1のメモリで済む。LLMの推論では、モデル全体の精度をほぼ保ちながら低精度フォーマットで動かす「量子化」が広く使われており、FP8は現在の主流。FP4はさらなる省メモリ・高速化が期待される次世代の形式だ。
GPU調達の選択肢が広がるとき
3社のセッションを通じて浮かび上がったのは、AIインフラを巡る「競争の始まり」という事実だ。
開発者にとってより直接的に関係するのはコストだ。MangoBoostのKim氏は「今年中に世界でもっともコスト効率の高いAIデータセンターを発表する」と宣言し、TensorWaveのTomasik氏はAMDの「1ドルあたりのメモリ容量と帯域幅」がNVIDIA一択時代のコスト構造を変えうると語った。GPU調達において「NVIDIA以外の選択肢を真剣に検討できる」状況が整いつつあることは、LLMを本番で動かすコストに関心を持つエンジニアにとって無縁ではない。「インフラストラクチャを誠実に保つのは競争だ」──Tomasik氏のその言葉が、今のAIインフラを巡る競争の実相を端的に示している。
