CodeZine(コードジン)

特集ページ一覧

「PyTorch 1.10」のライブラリがリリース、TorchXやTorchAudio、TorchVisionのアップデートなど

  • LINEで送る
  • このエントリーをはてなブックマークに追加
2021/10/26 08:00

 Python向けの、オープンソースの機械学習ライブラリであるPyTorch開発チームは、最新版となる「PyTorch 1.10」のライブラリを10月21日(現地時間)にリリースした。

 「PyTorch 1.10」には、研究開発から本番環境まで、機械学習アプリケーションを迅速に構築およびデプロイするための新たなSDKである、「TorchX 0.1」が付属している。本番環境に広く導入されている、一般的な機械学習スケジューラとパイプラインオーケストレータをサポートしているので、セットアップの手間なく使い始められる。

 さらに、音声合成パイプラインである「TorchAudio 0.10」のベータ版では、Tacotron2と事前トレーニング済みの重みが追加され、WaveRNNやGriffin-Limといった既存のボコーダ実装を使用した、音声合成パイプラインを構築できるようになった。また、TorchAudioにはHuBERTモデルアーキテクチャと、wav2vec 2.0およびHuBERTの事前トレーニング済み重みサポートのベータ版、時間周波数マスクを使用したマルチチャネルオーディオでの微分可能な最小分散無歪応答(MVDR)ビームフォーミングのサポートが追加されている。

 ほかにも、音声認識タスクで一般的なアーキテクチャーであるRNNトランスデューサパイプラインの一部である、RNNトランスデューサ(RNNT)損失のサポート、torchaudio.functional.lfilterにおけるバッチ処理と複数のフィルタのベータサポート、低遅延ストリーミングシナリオでLibriSpeechで最先端の結果を達成したメモリ効率の高いトランスアーキテクチャであるEmformerの追加(プロトタイプ)、カスタムCUDAカーネルをサポートするGPUビルドの追加が行われた。

 また、「TorchVision 0.11」では、さまざまな計算バジェットに合わせて拡張可能な、一般的なアーキテクチャであるRegNetとEfficientNetに、分類バリアント用に事前トレーニングされた22個の重みが含まれているほか、FXベースの特徴抽出(ベータ版)、元のデータに一連の変換を適用してデータを強化し、モデルのパフォーマンスを向上させる自動補強技術であるRandAugmentとTrivial Augmentの追加が行われている。

 そのほか、トレーニングリファレンススクリプトの更新によって、指数移動平均、ラベル平滑化、学習率ウォームアップ、ミックスアップ、カットミックス、その他のSOTAプリミティブのサポートが追加されており、いくつかの事前トレーニング済みモデルが改善された。次のリリースでは、既存の事前トレーニング済み重みの、メジャーアップデートを予定している。

関連リンク

  • LINEで送る
  • このエントリーをはてなブックマークに追加

あなたにオススメ

All contents copyright © 2005-2021 Shoeisha Co., Ltd. All rights reserved. ver.1.5