オープン×多様なAIモデル「Qwen」と「Wan」
1つ目の「精度十分なオープン×多様なAIモデル」。アリババクラウドは、テキストや画像、音声などのモダリティや、用途に応じたサイズ、オープンかAPIかといった要件に柔軟に対応できるAIモデルファミリーをそろえている。多様な選択肢があることで、最適な解を選択できるのだ。
その代表的なモデルファミリーのひとつが、「Qwen」だ。テキスト生成AIのモデルファミリーである。
「世界最大のオープンソースモデルファミリーで、ダウンロード数は10億を上回っています。オープンソースのためファインチューニングが可能です。ファインチューニングされたモデルが20万モデル以上にのぼります」(藤川)
Qwenファミリーからは、最新のマルチモーダルAIモデル「Qwen3.5」(サイズ397B)が提供されている。
ここでは活用例として、医療業界のCT画像の分析などが挙げられた。マルチモーダルかつ高精度の分析が必要な場面にも対応できる点が特徴だ。オープンソースのため、自社インフラへのデプロイが可能であり、データの安全性を確保しつつファインチューニングが行える。
SNSでも話題の「Qwen3-TTS」は、多言語でクローン可能な音声生成モデルだ。モダリティは音声に特化し、サイズが1.7B/0.6Bと小さいのが特徴である。日本語を含む合計10種類の言語に対応し、テキストから音声を生成できる。
活用事例としては、ゲームのキャラクターに自分の声で発話させるような体験の実現が挙げられている。多言語対応によりグローバルなローカライズが可能なうえ、モデルサイズが小さいため開発が比較的手軽だ。オープンソースであるため、多様なデバイスへのデプロイも容易である。
また、アリババクラウドを代表するもうひとつのAIモデルファミリー「Wan」についても解説された。日本のアニメ・ゲーム業界でも活用されている、マルチモーダルの画像・動画生成基盤モデルファミリーだ。
最新リリースの「Wan2.6」は、高品質の動画参照型ビデオ生成モデル。キャラクターの参照動画をもとにビデオを生成できる。APIのみの提供で、サイズは非公開だがフルHDと呼ばれる高品質の動画生成にも対応できる。
例えば、キャラクターが商品を紹介する動画広告などに活用可能で、従量課金制のAPIであるため導入のハードルが低いうえ、テストも容易だ。試しに1、2個動画を生成し、数百円でテストすることも可能である。

