Turingは、Weights & Biases Japanが6月13日に公開した、Vision-Languageモデル(VLM)評価のためのリーダーボード「Heron VLMリーダーボード」に技術提供を行ったことを発表した。現時点では、15を超えるVLMにおいてHeron-Benchを含む日本語VLM評価による比較が可能になっている。
「Heron VLMリーダーボード」は、TuringとWeights & Biases Japanの知見を合わせて開発されており、Turingが独自に開発した日本語VLM性能評価ベンチマーク「Heron Bench」およびVLMの評価のために世界で広く使われている「LLaVA Bench(In-the-Wild)」を組み合わせた総合評価によって、現実世界に即した複雑な画像を用いた評価だけでなく、日本の文化的文脈に根差した評価ができる。
同リーダーボードは、Weights & Biasesプラットフォームの実験管理機能を活用することで、評価の再現性とトレーサビリティを担保している。また、よりインタラクティブに評価結果を表示して、その場で分析することが可能となっており、平均スコアをランキング表示するだけでなく、それぞれのモデルがどのような特徴を有しているのかを捉えられる。ほかにも、各評価軸における性能を複数のモデル間で比較するレーダーチャートや、1つひとつの評価タスクにおける入出力を可視化するテーブルなどが含まれている。
「Heron Bench」は、Turingが独自に開発した日本語VLM性能評価ベンチマークで、Conversation、Detail、Complexの3つのカテゴリを設定した、日本特有の画像と質問のペアデータセットで構成されており、日本語VLMの性能を詳細に分析できる。
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です