CodeZineニュース

「PyTorch 1.10」のライブラリがリリース、TorchXやTorchAudio、TorchVisionのアップデートなど

2021/10/26 08:00

ポスト

ポスト

　Python向けの、オープンソースの機械学習ライブラリであるPyTorch開発チームは、最新版となる「PyTorch 1.10」のライブラリを10月21日（現地時間）にリリースした。

　「PyTorch 1.10」には、研究開発から本番環境まで、機械学習アプリケーションを迅速に構築およびデプロイするための新たなSDKである、「TorchX 0.1」が付属している。本番環境に広く導入されている、一般的な機械学習スケジューラとパイプラインオーケストレータをサポートしているので、セットアップの手間なく使い始められる。

　さらに、音声合成パイプラインである「TorchAudio 0.10」のベータ版では、Tacotron2と事前トレーニング済みの重みが追加され、WaveRNNやGriffin-Limといった既存のボコーダ実装を使用した、音声合成パイプラインを構築できるようになった。また、TorchAudioにはHuBERTモデルアーキテクチャと、wav2vec 2.0およびHuBERTの事前トレーニング済み重みサポートのベータ版、時間周波数マスクを使用したマルチチャネルオーディオでの微分可能な最小分散無歪応答（MVDR）ビームフォーミングのサポートが追加されている。

　ほかにも、音声認識タスクで一般的なアーキテクチャーであるRNNトランスデューサパイプラインの一部である、RNNトランスデューサ（RNNT）損失のサポート、torchaudio.functional.lfilterにおけるバッチ処理と複数のフィルタのベータサポート、低遅延ストリーミングシナリオでLibriSpeechで最先端の結果を達成したメモリ効率の高いトランスアーキテクチャであるEmformerの追加（プロトタイプ）、カスタムCUDAカーネルをサポートするGPUビルドの追加が行われた。

　また、「TorchVision 0.11」では、さまざまな計算バジェットに合わせて拡張可能な、一般的なアーキテクチャであるRegNetとEfficientNetに、分類バリアント用に事前トレーニングされた22個の重みが含まれているほか、FXベースの特徴抽出（ベータ版）、元のデータに一連の変換を適用してデータを強化し、モデルのパフォーマンスを向上させる自動補強技術であるRandAugmentとTrivial Augmentの追加が行われている。

　そのほか、トレーニングリファレンススクリプトの更新によって、指数移動平均、ラベル平滑化、学習率ウォームアップ、ミックスアップ、カットミックス、その他のSOTAプリミティブのサポートが追加されており、いくつかの事前トレーニング済みモデルが改善された。次のリリースでは、既存の事前トレーニング済み重みの、メジャーアップデートを予定している。

関連リンク: ブログポスト（英語）

「PyTorch」（英語）

この記事は参考になりましたか？

印刷用を表示

ポスト

この記事の著者: CodeZine編集部（コードジンヘンシュウブ）

CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この著者の最近の執筆記事