PythonとCythonで記述されたオープンソースの自然言語処理ライブラリspaCyの開発チームは、最新版となる「spaCy 3.1」をリリースしている。
「spaCy 3.1」では、トレーニング中に予測ドキュメントに注釈を設定するパイプラインコンポーネントを指定できるようになり、パイプライン内の前のコンポーネントの予測を、後続のコンポーネントの機能として簡単に使用可能になっている。
また、任意の重複する可能性のあるテキストのスパンにラベルを付けられ、重複する場合と重複しない場合があるスパンの候補を提案するsuggester関数と、各候補の0個以上のラベルを予測するラベラーモデルで構成される、SpanCategorizerが追加された。
さらに、EntityRecognizerが既知の不正な注釈で更新できるようになり、部分的でスパースなデータを利用可能になったほか、カタロニア語の新たなコアファミリとdanish-bert-botxo重み付けを使用したデンマーク語の新しいトランスフォーマーベースのパイプラインなど、5つの新たなパイプラインパッケージの追加、古いラベルの予測が同じままであることを保証しつつ、アーキテクチャのサイズを変更できるTextCatCNNとTextCatBOW、追加のトレーニングなしで構成ファイルからパイプラインをアセンブル可能なspacy assembleコマンドが追加されるなど、数多くの機能追加・修正が行われている。
- 関連リンク
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です