PythonとCythonによって実装された、自然言語処理のためのライブラリspaCy開発チームは、最新バージョンとなる「spaCy 3.2」をリリースしている。
「spaCy 3.2」では、スコアリングをカスタマイズするために、各コンポーネントのスコアリング関数を指定できるようになったほか、ほとんどのパイプラインコンポーネントにおいて、設定の上書きがサポートされた。
また、nlpとnlp.pipeではDocによる入力が可能になり、文字列の代わりにDocが提供される場合にはトークナイザがスキップされ、カスタムトークナイザによるDocの作成や、処理前のカスタム拡張機能の設定が容易になっているほか、サブワードとBloom組み込みによって、コンパクトでフルカバーのベクトルを実現するfastTextの拡張版であるfloretのサポートが追加されている。
さらに、spacy-transformersがシリアル化を改善し、インライントランスフォーマーコンポーネントとリスナの置き換えをサポートするようリファクタリングされたほか、transformer_config設定もサポートされたバージョン1.1にアップデートされるとともに、日本語用のTransformerパイプラインパッケージの追加なども行われた。
- 関連リンク
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です