Python向けの、オープンソースの機械学習ライブラリであるPyTorch開発チームは、最新版となる「PyTorch 1.10」のライブラリを10月21日(現地時間)にリリースした。
「PyTorch 1.10」には、研究開発から本番環境まで、機械学習アプリケーションを迅速に構築およびデプロイするための新たなSDKである、「TorchX 0.1」が付属している。本番環境に広く導入されている、一般的な機械学習スケジューラとパイプラインオーケストレータをサポートしているので、セットアップの手間なく使い始められる。
さらに、音声合成パイプラインである「TorchAudio 0.10」のベータ版では、Tacotron2と事前トレーニング済みの重みが追加され、WaveRNNやGriffin-Limといった既存のボコーダ実装を使用した、音声合成パイプラインを構築できるようになった。また、TorchAudioにはHuBERTモデルアーキテクチャと、wav2vec 2.0およびHuBERTの事前トレーニング済み重みサポートのベータ版、時間周波数マスクを使用したマルチチャネルオーディオでの微分可能な最小分散無歪応答(MVDR)ビームフォーミングのサポートが追加されている。
ほかにも、音声認識タスクで一般的なアーキテクチャーであるRNNトランスデューサパイプラインの一部である、RNNトランスデューサ(RNNT)損失のサポート、torchaudio.functional.lfilterにおけるバッチ処理と複数のフィルタのベータサポート、低遅延ストリーミングシナリオでLibriSpeechで最先端の結果を達成したメモリ効率の高いトランスアーキテクチャであるEmformerの追加(プロトタイプ)、カスタムCUDAカーネルをサポートするGPUビルドの追加が行われた。
また、「TorchVision 0.11」では、さまざまな計算バジェットに合わせて拡張可能な、一般的なアーキテクチャであるRegNetとEfficientNetに、分類バリアント用に事前トレーニングされた22個の重みが含まれているほか、FXベースの特徴抽出(ベータ版)、元のデータに一連の変換を適用してデータを強化し、モデルのパフォーマンスを向上させる自動補強技術であるRandAugmentとTrivial Augmentの追加が行われている。
そのほか、トレーニングリファレンススクリプトの更新によって、指数移動平均、ラベル平滑化、学習率ウォームアップ、ミックスアップ、カットミックス、その他のSOTAプリミティブのサポートが追加されており、いくつかの事前トレーニング済みモデルが改善された。次のリリースでは、既存の事前トレーニング済み重みの、メジャーアップデートを予定している。
- 関連リンク
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です