オープンソースのPython向け自然言語処理(NLP)ライブラリであるspaCyの開発チームは、最新版となる「spaCy 3.0.0」を1月31日(現地時間)にリリースした。
「spaCy 3.0.0」では、新機能としてマルチタスク学習をサポートするトランスフォーマーベースのパイプラインや、18以上の言語用に再トレーニングされたモデルファミリーと5つのトランスフォーマーベースパイプラインを含む計58のトレーニング済みパイプラインが追加されている。
ほかにも、サポートされているすべての言語用に再トレーニングされたパイプラインとともに、マケドニア語とロシア語用の新しいコアパイプライン、新しいトレーニングワークフローと構成システム、PyTorch、TensorFlow、MXNetといった機械学習フレームワークを使用したカスタムモデル、前処理からモデル展開までのエンドツーエンドのマルチステップワークフローを管理するためのspaCyプロジェクトが実装された。
機能改善としては、データバージョン管理(DVC)、Streamlit、Weights&Biases、Rayなどとの統合や、Rayを使用した並列トレーニングと分散コンピューティングのサポート、新たなパイプラインコンポーネントの実装、カスタムコンポーネントに向けたパイプラインコンポーネントAPIとデコレータの改善、他のパイプラインからのトレーニング済みコンポーネント調達への対応などが行われている。
- 関連リンク
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です