SHOEISHA iD

※旧SEメンバーシップ会員の方は、同じ登録情報(メールアドレス&パスワード)でログインいただけます

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

特集記事

電子書籍を耳で聞く未来~日本点字図書館に訊く商用テキストの音声データ化にまつわる現状と課題

  • X ポスト
  • このエントリーをはてなブックマークに追加

録音図書の製作

 実際の録音図書のデータ作成について紹介します。肉声で音声デイジーを作る場合と、合成音声でマルチメディアデイジーを作る場合についてです。合成音声では音声デイジーはほとんど作っておらず、マルチメディアデイジーで教科書等を作る際に、使用することが多いそうです。

肉声

 まずは、肉声で音声デイジーを作る場合です。小説など鑑賞用の本は、肉声で作られることがほとんどです。

 読み上げるのは、ボランティアの方々です。日本点字図書館は4階建てで、最上階に多数の録音スタジオがあります。そこで録音するケースもあれば、自宅で録音してもらい、ネット経由で納品してもらうケースもあります。

 読み手のボランティアは60~70代のシニア、それも主婦が多いそうです。録音したデータは、最終的にMP3に変換されます。1冊の本を録音図書にすると、収録時間は数時間から10時間を超えることもあります。録音作業には、収録時間の3~5倍の時間がかかります。その後、原本と照らし合わせて、校正とデイジー形式への編集が行われます。音声に間違いがある場合は再録音します。

 1冊の本が利用可能になるまでは、早くても1か月、通常だと6~12か月かかります。芥川賞受賞作のように「話題の本」を読みたいと思っても、半年や1年経つと旬が去ります。この時間の経過は大きいです。

 また、肉声の音声デイジーを作成する際、情報を正確に伝えるため読み手に要求されるのは、「情緒的な読みをしないこと」と「早回しでも聞き取りやすく読むこと」です。実際に聞く人は2~3倍速で聞くそうです。自分でも実験してみましたが、2.5倍程度なら意味をきちんと聞き取れます。3倍は無理でした。

音声合成

 次は、音声合成でマルチメディアデイジーを作る場合です。音声合成エンジンは、Pepperの声も作っている株式会社エーアイのものを利用しています。

 肉声と音声合成。音声合成の方が、圧倒的に作業が早いように思えるのですが、実際はそうでもないそうです。本をスキャンしてOCRにかける。その上で、音声合成で音声を作る。そうした手順を踏むため、OCRの精度によっては修正の手間が掛かります。また、音声合成には読みやアクセントの情報が必要になります。それらも手で入力しなければなりません。そのため下手をすると、肉声より時間が掛かることもあるそうです。

 しかし、音声合成には肉声にない利点があります。音声合成は、時間によって差分が発生するものに強いです。具体的には、教科書やマニュアルです。日本点字図書館では、教科書のマルチメディアデイジー化も行っています。教科書は、4年に一度の大きな改訂以外にも、細かく改訂が入ります。その都度、肉声で音声を作り直すのは大変です。

 実は教科書のマルチメディアデイジー化は、視覚障害者以外にも需要があります。学習障害などを抱える生徒にも役立ちます。音声に対応したテキストがハイライト表示されることで、何が書いてあるのか理解しやすくなるためです。

 ただ、最近の教科書はビジュアル化がとても進行しており、レイアウトが複雑で、音声化・リフロー化する際に苦労しているそうです。特に社会や理科の教科書は大変だということでした。

クラウドソーシングによるテキスト化

 面白い取り組みとしては、クラウドソーシングの利用です。本をスキャンしてOCRに掛けたあと、その校正をクラウドソーシングで行っているそうです。

 まず、本を買ってきて裁断して、3つの異なるソフトでテキスト化します。

 そして、この3つのソフトで「異なる結果になった部分」をクラウドに投げて、ボランティアによる人力の校正を行います。クラウド校正が必要な箇所は、1ページに5ヶ所程度発生します(小説では1~2ヶ所、新書系の図書を作ることが多いので平均すると5ヶ所程度となる)。1ページの文字数が1000文字程度とすると、99.5%程度の精度になります。

 このボランティアによる校正も、3つのグループに分けて行い、異なる結果になると多数決をするそうです。グループを分けるのは、精度を上げるためとのことでした。

 このようにして、可能な限り人力を省きつつ、必要な人力はクラウドのボランティアにより断片化して賄う。ただ、本来はテキストであるはずのデータを、紙から再び取り込むことは、ある意味無駄です。そうしたことをせざるを得ない背景には、出版社からテキストデータをもらえないという事情があります。

 出版社相手だと個別の交渉になり、かつデータは印刷屋が押さえているケースが多いとのことでした。まとめて交渉できないかということで、電子の取り次ぎに交渉に行ったこともあるそうです。しかし取り次ぎには、そもそも権限がありません。

 さて、この「クラウドソーシングによるテキスト化」ですが、日本点字図書館が開発したものではありません。元々IBMが国会図書館向けに開発していました。しかし国会図書館が、本の電子化を行う際に、全文テキスト化まではやらないと決めました。そして日本点字図書館で利用できないかと話が回ってきたそうです。

 デジタルを紙に印刷して、その紙の情報を再デジタル化する。国会図書館が、デジタル納本を進めてくれればOCRを掛ける必要もなくなる。しかし、まだそういった状態には至ってないそうです。

次のページ
録音図書の問題

この記事は参考になりましたか?

  • X ポスト
  • このエントリーをはてなブックマークに追加
特集記事連載記事一覧

もっと読む

この記事の著者

柳井 政和(ヤナイ マサカズ)

クロノス・クラウン合同会社 代表社員http://crocro.com/オンラインソフトを多数公開。プログラムを書いたり、ゲームを作ったり、記事を執筆したり、マンガを描いたり、小説を書いたりしています。「めもりーくりーなー」でオンラインソフト大賞に入賞。最近は、小説家デビューして小説も書いています(『裏切りのプログラム』他)。面白いことなら何でもOKのさすらいの企画屋です。 

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この記事は参考になりましたか?

この記事をシェア

  • X ポスト
  • このエントリーをはてなブックマークに追加
CodeZine(コードジン)
https://codezine.jp/article/detail/10663 2018/02/09 14:00

おすすめ

アクセスランキング

アクセスランキング

イベント

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

新規会員登録無料のご案内

  • ・全ての過去記事が閲覧できます
  • ・会員限定メルマガを受信できます

メールバックナンバー

アクセスランキング

アクセスランキング