Turingは、動画や画像の大規模データを効率的に圧縮しつつ、AIに適した形式で高精度に保持できる技術を開発したことを、1月22日に発表した。
同技術は、テキストや画像など多様な情報をトークンの列に変換して、可変長圧縮することによって、必要な画質や解析精度を維持しつつ、データ容量の大幅な削減が可能になる。
その中で、学習の段階でトークン列の末尾をランダムに削除して、その差異を比較してモデルを最適化する手法「Tail Token Drop」を導入することで、重要情報がデータ列の先頭に集約されるようになり、圧縮率を高めても肝心な部分を損ないにくい設計を実現した。
あわせて、トークン列から画像を再構成することもでき、従来のJPEGやWebPといった画像フォーマットと比較して小さいバイト数で、視覚的に自然な画像を再構成することが可能で、今後はリアルタイム性や通信コストがとりわけ重要とされる、自動運転やクラウド連携システムへの応用が期待できる。
なお、モデルファイルやソースコードは商用利用が可能となっている。
- 関連リンク
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です