アリババクラウドは6月25日(現地時間)、一般エージェント向けの言語世界モデル「Qwen-AgentWorld」と、その評価ベンチマーク「AgentWorldBench」を発表した。
Qwen-AgentWorldは、エージェントが動作する7つの異なる環境(MCP、Search、Terminal、SWE、Web、OS、Android)を1つのモデルでシミュレーション可能な新しい言語ワールドモデルだ。これにより、テキストベースおよびGUIベースの環境を横断した学習と知識の転移を実現し、より汎用的なAIエージェント開発を支援する。
同モデルは、3段階の学習プロセス(CPT、SFT、RL)を採用し、1000万以上の実環境インタラクショントレースを用いて訓練された。CPTで環境知識を注入し、SFTで状態遷移予測能力を活性化、RLでシミュレーション精度を向上する流れとなっている。評価には新たに作成されたAgentWorldBenchを使用し、実環境での観測結果との比較や、多次元的な品質判定(形式、正確性、一貫性、現実性、品質)を実施。397B-A17Bモデルは他の先端モデル(GPT-5.4、Claude Opus 4.8、Gemini 3.1 Pro)を上回る総合スコアを記録した。
Qwen-AgentWorldは、現実環境の代替やコスト削減が主目的ではなく、現実環境との補完によるエージェント開発能力の拡張を目指す。シミュレータとしての活用により、現実では難しい制御や多様な環境条件への対応が可能となり、強化学習エージェントの性能や一般性向上にも寄与している。また、LWM(Language World Model)としての事前訓練は、タスクを越えた汎用能力の転移を示している。
同モデル(Qwen-AgentWorld-35B-A3B)はオープンソースとしてHugging FaceおよびModelScopeで公開、Pythonなどを用いたデプロイが可能だ。AgentWorldBenchも同様に入手でき、詳細な評価が実施可能となっている。
- 関連リンク
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です
