音声入力とOCR技術の提供で忙しい救急の現場を支援したい
総務省の調査によると、2021年の救急出動件数は619万3663件、搬送人員は549万1469人と報告されている。全国で1日に約1.7万件の救急出動があるという計算になる。その内訳は急病が405万5879件と約63.5%を占めており、残りは一般負傷、交通事故だが、5年ごとの推移で見ると急病の割合は増加している。
その背景には、超高齢化社会も関係している。高齢者の救急搬送が増加しているからだ。日頃、健康であると実感できないが、救急医療に携わる医療従事者は非常に忙しいのが現状だ。
これまでの連載で、TXP Medical株式会社(以下、TXP Medical)は救急医療の現場をDXすべく、「NEXT Stage ER」をはじめ、「NEXT Stage ICU」「NSER mobile」を開発、提供している。
自身も救急医として活躍する園生氏は、「救急搬送をデジタル化する価値は、情報の検索性と共有性が高まることです。救急医療はチーム医療です。搬送の連絡を受けた際、複数の関係者に連絡する必要があります。関係者全員でリアルタイムに情報共有できれば、処置をスムーズに行えます。デジタル化する価値はそこにあります」と語る。
搬送先となる医師、看護師、医療事務に加え、救急隊、他の病院の医師とも情報共有が必要になる。情報共有できなければ患者の処置が遅れ、命に関わることになるかもしれないからだ。
救急隊と病院側の連絡手段として、現在も多くの現場で使われているのが、紙とペンと電話である。紙とペンと電話では、チームでの情報共有は容易ではない。そこでTXP Medicalが今、注力して開発しているのが「入力支援のためのAI」である。なぜなら、救急の現場では心臓マッサージをしながら患者の情報を記入するような場面が日常茶飯事だからだ。
入力を支援するためのAIとは、救急隊向けのソリューション、NSER mobileに搭載されている音声コマンド入力技術とOCRである。
NSER mobileでは、救急隊が紙に記入する代わりに、iPhoneに向かって音声で患者の状態を話したり、免許証やお薬手帳、バイタルモニターを撮影すると、テキスト化されiPhoneアプリ FileMaker Go の指定したフィールドに入力される仕組みになっている。
FileMaker バージョン16から「URLから挿入」というコマンドが追加されたことで実現した。「Webシステム開発経験者に馴染みのあるcurlコマンドを使って、Google Cloud Speech-to-Text APIや自社製のOCR APIを呼び出し、FileMaker側がその値を取得するという仕組みになっています」(水島氏)
音声入力もOCRも、FileMaker側からみると、URL挿入のところで、curlコマンドを叩いているだけ。結果はJSONデータとして返ってくる。この仕組みの中にTXP Medical独自の技術が詰め込まれている。
音声入力の場合、例えばGoogle Cloud Speech-to-Textだけだと、救急隊の「41歳男性 えー、心房細動によりリクシアナ内服中 救急隊到着時、JCS200、血圧は156の82、体温はえーっと36.5℃」という言葉が「41歳男性 えー 辛抱細動により、陸士アナ内服中 救急隊到着時 JCS200、血圧は156の82 対4 Aと 36.5℃」といった単語に変換されて返ってくる。
「Googleの音声変換エンジンは、汎用的なエンジンなので一般的な言葉に変換されてしまいます。そこで当社が独自に開発した、入力シーンごとに学習させたテキスト置換モジュールを使って、辛抱細動を心房細動、陸士アナをリクシアナ、対4を体温というように正しく変換する仕組みにしています」(水島氏)
実際に学習させたテキスト置換モジュールを使うと、「41歳男性 心房細動によりリクシアナ内服中 気球対到着時 JCS200、血圧は156の82 体温Aと36.5℃」と変換される。このテキスト情報を辞書パターンマッチング+修飾語重み付けエンジンを通すことで、目的に応じた正しい変換が行われ、入力内容が構造化される。
一方のOCRは、汎用のOCRエンジンは使っておらず、同社が独自で開発。その理由は完全に活用するシーンを特定することで認識精度を高めることができるからだ。
同社が開発したモニターOCRは、バイタルモニターの画面を撮影すれば、血圧や体温など必要なバイタル情報を抜き出し、それをテキスト化するという技術である。抜き出す情報が決まっているので一般的なOCRに比べて簡単と思いがちだが、そうではない。「救急の現場では、患者さんの状況やシーンによって、正面からモニターを撮影できない場合があります。斜めから撮影すると、実際に撮りたい画面が台形やひし形になったり、光の反射や走査線によって読み取りにくい画像になることが多いため、専用のOCRロジックを開発しました」(水島氏)
同社が独自開発したOCRでは、一般的なOCRでは読み取れないような画像からモニター画面を検出して、見やすい形に補正するという前処理を実施し、その画像に対して、テキスト検出を行うプロセスを採用している。
そのテキスト検出に使用しているのがCRAFT(Character Region Awareness for Text Detection)という深層学習モデル。画像内の1文字単位での位置情報予測に加え、文字間をつなぐ領域を推定することで単語ベースの文字認識に優れているからだ。
もう一つ、モニターOCRでやっかいなのは、「バイタルモニターと一口に言っても、いくつかの種類があること」と水島氏。有名なものだけでも3~4種類あるそうだ。その上、メーカーによって画面で使っているフォントの種類や色、画面サイズも異なる。「このメーカーのこの位置の数値はSpO2、このメーカーだとこの位置で緑色は脈拍、といった形で、パターン化して認識し、最終的にJSONデータとしてFileMakerに結果を返す仕組みを作っています」と水島氏は話す。
だが、同じメーカーでも機種によっては表示形式が異なるため、何度も学習させることで精度を高めていくことになる。その学習が大変なのだが、そこに同社の強みがあると水島氏は明かす。「当社には医師と兼業のメンバーがたくさんいるので、現場で使っているモニターの情報が入手しやすいのです」(水島氏)
また園生氏も、「モニターの写真を撮ってきてほしいと言うと、いろんなメーカーの写真を撮ってきてくれる体制ができています。しかも救急隊に使われることでより教師データも集まる。結果として精度も高まっていく。そういう体制づくりは、当社だからこそできること」と続ける。