SHOEISHA iD

※旧SEメンバーシップ会員の方は、同じ登録情報(メールアドレス&パスワード)でログインいただけます

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

イベントレポート

画像認識技術のエキスパート3人が明かす、画像認識技術の現状と、取り組みへの第一歩

「GeekOutナイト」レポート

  • X ポスト
  • このエントリーをはてなブックマークに追加

眠気を画像認識技術で予兆する

 続いて登壇したのは、オムロン株式会社 技術・知財本部 センシング研究開発センタ 画像センシング研究室の仁科有貴氏。「画像認識は30年以上の実績があり、オムロンのコア技術のひとつ」と話す。中でも顔画像センシング技術は1995年から研究が始まり、97年より実用化にこぎ着けている。「デジカメやプリンタ向けなど、累計5億ライセンス出荷している」のだという。

オムロン株式会社 技術・知財本部 センシング研究開発センタ 画像センシング研究室 仁科有貴氏
オムロン株式会社 技術・知財本部 センシング研究開発センタ 画像センシング研究室 仁科有貴氏

 BtoB向けにオムロンが取り組む画像認識はエッジ型(※下図参照)が多い。「限られたハードウェアリソース、処理時間の制約の下でいかに必要な認識精度を実用できるか、日々取り組んでいる」と仁科氏は語る。

「クラウド型」と「エッジ型」の画像認識技術
「クラウド型」と「エッジ型」の画像認識技術

 画像認識というとディープラーニングという文脈で語られることが多いが、先のような制限があるエッジ型では、ディープラーニングを適用することが困難な場合も多い。「もちろん諦めているわけではない。エッジ型でも活用しようと努力している」と続ける。

 具体的な活用例として仁科氏は2つの事例を紹介。1つ目はロボットビジョン(3次元物体位置姿勢認識技術)。この技術により、ランダムにばら積みされた物体をロボットが傷つけず取り出すことを実現している。

 また、自動車への活用事例として、ドライバー状態をセンシングする技術を紹介。これは自動運転時代を見越した技術で、画像認識技術を用いてドライバーの状態を理解するものだ。こちらはディープラーニングが用いられている。中でも難しいのは「予兆のセンシングだ」と仁科氏は説明。というのも、人間が見ても、顔に眠気が表れているかどうかを判断するのは難しいからだ。そこで、眠くなると働きがにぶくなるVOR(前庭動眼反射)という生体現象に着目。VORを計測するため眼球運動と頭部運動をリアルタイムで計測するアルゴリズムを開発し、「VORによる眠気予兆の実用化に取り組んでいく」という。

画像認識技術で料理、非料理を自動判定

 3番目に登壇したのは、クックパッド株式会社 研究開発部の菊田遥平氏。クックパッドでは「料理きろく」や料理写真のレシピ分類、低解像度料理写真の高解像度化、料理写真の魅力度推定、「つくれぽ」画像の自動チェック、料理動画の要約などで画像分析に取り組んでいるという。

クックパッド株式会社 研究開発部 機械学習グループ 菊田遥平氏
クックパッド株式会社 研究開発部 機械学習グループ 菊田遥平氏

 例えば「料理きろく」。こちらは携帯端末中の写真から料理写真のみを抜き出して表示するサービスだ。入力画像に対し、料理か非料理か判定して出力することを「機械学習でやりたい」と菊田氏は語る。

 しかしそれは想像以上に困難な道のりだった。課題に取り組んでいるうちに、「最初に解こうとしていた問題が真に解くべき問題ではない」ことに気付いたからだ。その上、実サービスのデータ(写真)が使えないため、テストデータを用いた評価が難しいといった困難もあった。

 そんな中、最初にデプロイしたモデルが「2-classes CaffeNet」だ。しかし、人が明らかに料理と認識できる写真を非料理と間違えたり、赤ちゃんや植物などを料理と判定したりするなどの間違いがあったという。そこで画像分類モデルのベストプラクティスの導入、モデルの振る舞いをコントロールすべく料理以外のカテゴリを追加して学習させるなど、モデルの改善に取り組んだ。テストデータも拡充し、ベストな組み合わせを選択したところ、正答率が数%向上したという。

 だがそれでも間違えるケースもあった。それがダイニングテーブルに並ぶ料理の写真などである。周りに人が居るため、「料理ではない」と判断されるのだ。そこで「『画像の一部を切り取り、レシピとして掲載可能であれば、料理画像とする』と仕様を決め、その情報をモデルに与える。画像の局所的な情報を扱うため、パッチ化を行うことにした」と菊田氏は説明する。

料理画像を切り出すため、画像の局所的な情報を取り扱うモデルが必要
料理画像を切り出すため、画像の局所的な情報を取り扱うモデルが必要

 さらにテストデータも拡充し、性能改善を確認。テスト画像は約2万5000枚。こうした改善により正答率がさらに約2%向上したという。このモデルが現在の「料理きろく」で動いている。「まだまだ改善案は考えられるが、労力と得られる効果を勘案しつつ、必要があれば次の手を打ちたい」と振り返る。

次のページ
画像認識技術はどこから取り組む?

この記事は参考になりましたか?

  • X ポスト
  • このエントリーをはてなブックマークに追加
イベントレポート連載記事一覧

もっと読む

この記事の著者

中村 仁美(ナカムラ ヒトミ)

 大阪府出身。教育大学卒。大学時代は臨床心理学を専攻。大手化学メーカー、日経BP社、ITに特化したコンテンツサービス&プロモーション会社を経て、2002年、フリーランス編集&ライターとして独立。現在はIT、キャリアというテーマを中心に活動中。IT記者会所属。趣味は読書、ドライブ、城探訪(日本の城)。...

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この記事は参考になりましたか?

この記事をシェア

  • X ポスト
  • このエントリーをはてなブックマークに追加
CodeZine(コードジン)
https://codezine.jp/article/detail/10893 2018/06/21 14:00

おすすめ

アクセスランキング

アクセスランキング

イベント

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

新規会員登録無料のご案内

  • ・全ての過去記事が閲覧できます
  • ・会員限定メルマガを受信できます

メールバックナンバー

アクセスランキング

アクセスランキング