眠気を画像認識技術で予兆する
続いて登壇したのは、オムロン株式会社 技術・知財本部 センシング研究開発センタ 画像センシング研究室の仁科有貴氏。「画像認識は30年以上の実績があり、オムロンのコア技術のひとつ」と話す。中でも顔画像センシング技術は1995年から研究が始まり、97年より実用化にこぎ着けている。「デジカメやプリンタ向けなど、累計5億ライセンス出荷している」のだという。
BtoB向けにオムロンが取り組む画像認識はエッジ型(※下図参照)が多い。「限られたハードウェアリソース、処理時間の制約の下でいかに必要な認識精度を実用できるか、日々取り組んでいる」と仁科氏は語る。
画像認識というとディープラーニングという文脈で語られることが多いが、先のような制限があるエッジ型では、ディープラーニングを適用することが困難な場合も多い。「もちろん諦めているわけではない。エッジ型でも活用しようと努力している」と続ける。
具体的な活用例として仁科氏は2つの事例を紹介。1つ目はロボットビジョン(3次元物体位置姿勢認識技術)。この技術により、ランダムにばら積みされた物体をロボットが傷つけず取り出すことを実現している。
また、自動車への活用事例として、ドライバー状態をセンシングする技術を紹介。これは自動運転時代を見越した技術で、画像認識技術を用いてドライバーの状態を理解するものだ。こちらはディープラーニングが用いられている。中でも難しいのは「予兆のセンシングだ」と仁科氏は説明。というのも、人間が見ても、顔に眠気が表れているかどうかを判断するのは難しいからだ。そこで、眠くなると働きがにぶくなるVOR(前庭動眼反射)という生体現象に着目。VORを計測するため眼球運動と頭部運動をリアルタイムで計測するアルゴリズムを開発し、「VORによる眠気予兆の実用化に取り組んでいく」という。
画像認識技術で料理、非料理を自動判定
3番目に登壇したのは、クックパッド株式会社 研究開発部の菊田遥平氏。クックパッドでは「料理きろく」や料理写真のレシピ分類、低解像度料理写真の高解像度化、料理写真の魅力度推定、「つくれぽ」画像の自動チェック、料理動画の要約などで画像分析に取り組んでいるという。
例えば「料理きろく」。こちらは携帯端末中の写真から料理写真のみを抜き出して表示するサービスだ。入力画像に対し、料理か非料理か判定して出力することを「機械学習でやりたい」と菊田氏は語る。
しかしそれは想像以上に困難な道のりだった。課題に取り組んでいるうちに、「最初に解こうとしていた問題が真に解くべき問題ではない」ことに気付いたからだ。その上、実サービスのデータ(写真)が使えないため、テストデータを用いた評価が難しいといった困難もあった。
そんな中、最初にデプロイしたモデルが「2-classes CaffeNet」だ。しかし、人が明らかに料理と認識できる写真を非料理と間違えたり、赤ちゃんや植物などを料理と判定したりするなどの間違いがあったという。そこで画像分類モデルのベストプラクティスの導入、モデルの振る舞いをコントロールすべく料理以外のカテゴリを追加して学習させるなど、モデルの改善に取り組んだ。テストデータも拡充し、ベストな組み合わせを選択したところ、正答率が数%向上したという。
だがそれでも間違えるケースもあった。それがダイニングテーブルに並ぶ料理の写真などである。周りに人が居るため、「料理ではない」と判断されるのだ。そこで「『画像の一部を切り取り、レシピとして掲載可能であれば、料理画像とする』と仕様を決め、その情報をモデルに与える。画像の局所的な情報を扱うため、パッチ化を行うことにした」と菊田氏は説明する。
さらにテストデータも拡充し、性能改善を確認。テスト画像は約2万5000枚。こうした改善により正答率がさらに約2%向上したという。このモデルが現在の「料理きろく」で動いている。「まだまだ改善案は考えられるが、労力と得られる効果を勘案しつつ、必要があれば次の手を打ちたい」と振り返る。