朝日新聞社は、自然言語処理研究の成果の一つとして、長い文章を入力すると要約された文章を返す「長文要約生成API」を公開した。
「長文要約生成API」は、長い文章から、各文を圧縮したり、指定文字数ごとに区切って要約したり、重要な文を抽出したりすることが可能。過去30年分の朝日新聞の記事データおよび、記事を生み出すフローで生み出される内部データを活用し、学習データとしての処理効率を上げるためのフィルタリングなどをした上で、ディープラーニングを用いて学習させている。
「長文要約生成API」では下記の5つの機能を提供している。
- 入力された文章を、指定した長さごとに区切って要約する
- 文ごとの長さが揃うように圧縮する
- 文ごとに指定した割合まで圧縮する
- 重要な文を抽出する
- 抽出した重要文を圧縮し、文書全体を指定した長さにする
朝日新聞社はこれまで、自動で見出しや要約を生成する「自動要約生成API TSUNA」をリリースしてきた。今回、TSUNAで培ってきた技術をもとに研究を進め、「長文要約生成API」の公開に至った。本APIは評価用途に限って無償で利用することができる。
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です