Shoeisha Technology Media

CodeZine(コードジン)

記事種別から探す

【デブサミ2016】19-E-2レポート
話題の機械学習ライブラリで防犯カメラはここまで進化する! ~ 画像認識・異常検出×IoTでできること

  • LINEで送る
  • このエントリーをはてなブックマークに追加
2016/03/17 14:00

 2015年より、ブームと呼べるほどの注目が集まるディープラーニング。ディープラーニングとは多層構造のニューラルネットワークのことだが、ではニューラルネットワークとは何かと言うと……一般的には「脳の神経回路を模した機械学習のアルゴリズム」だが、その本質や仕組みを理解するのはなかなか難しい。日本オラクル クラウド・テクノロジー事業統括 PaaS事業推進室 PaaS Evangelistの中嶋一樹氏も「多くの方にとって理解し難い領域であるのは事実」としながら、「ただし、ニューラルネットワークを使ってできることは非常に面白く、かつ、より身近になってきている」として、画像認識をはじめとした参加型のデモを実施。こうした機械学習の技術とIoT(Internet of Things)がつながることによって、何が変わるのか、どんなサービスに応用できるのかなど、身近な例を挙げて紹介した。

目次
日本オラクル クラウド・テクノロジー事業統括 PaaS事業推進室 PaaS Evangelist 中嶋一樹氏
日本オラクル クラウド・テクノロジー事業統括 PaaS事業推進室 PaaS Evangelist 中嶋一樹氏

誰もが手軽に体感できるようになった最新の画像認識技術

 ニューラルネットワークでできることは多岐にわたる。中でもよく知られるのが画像認識だ。画像認識の一環である「顔認識」なども当初は驚くべき技術だったが、今日ではFacebookやアップルの写真(Photos)アプリなどですっかりおなじみの機能となった。また、世界的に研究が進む自動運転の分野においても、人や道路の状況を把握するために画像認識の技術が応用されている。

 中嶋氏は「現代のニューラルネットワークの技術ではどれほどの精度で画像を認識できるのか、まず体感していただきたい」と語り、デモを披露した。

 最初のデモ環境でキーとなるライブラリは、「TensorFlow」と「ImageNet」の2つ。TensorFlowは、2015年11月にGoogleがオープンソース化して公開した機械学習の開発ライブラリで、セットアップや記述が簡単なのが特徴だ。一方、ImageNetは機械学習用の学習画像データ(リファレンスデータモデル)で、世界中の物体について平均1000の画像を保持している。

TensorFlowとImageNet
TensorFlowとImageNet

 「ImageNetは、昨年のTED Conferenceでスタンフォード人工知能研究所所長のフェイフェイ・リー氏がプレゼンテーションで取り上げたことでも話題となった。ImageNetのみならず、画像認識技術の今を理解するうえで非常にわかりやすいプレゼンテーションなので、興味のある方はぜひご覧いただきたい」(中嶋氏)

 これらのライブラリがバックエンドで稼働しているNode.jsのWebアプリケーションを使って、中嶋氏はサンプル画像をいくつか解析してみせた。たとえば「薪ストーブ」の写真は、99%の信頼度でストーブと解析された(一見「暖炉」に似ているが、暖炉と薪ストーブは厳密には別物であり、解析結果は大正解とのこと)。また、ウイスキー白州のボトルは信頼度51%で「ビールのボトル」、44%で「ワインボトル」という解析結果に。惜しくも不正解だったが、ボトルであることは認識されたようだ。

 中嶋氏は、続いて画像アップローダのWebフォームURLを公開し、セッション受講者にその場でデモへの参加を呼びかけた。受講者の多くはスマートフォンやPCから続々と写真をアップロードし、それらはリアルタイムでスクリーンに映し出され、解析された。解析結果については、それぞれ本人が「正解」「残念」「惜しい」のリボンを付けていく仕組みで、なかなかに優秀な認識精度、そして解析スピードを体感することができた。

受講者からアップロードされた画像をリアルタイムに解析していく様子
受講者からアップロードされた画像をリアルタイムに解析していく様子

 「TensorFlowとImageNetという誰もが使えるオープンな技術を活用して、このような画像認識を手軽に実現できるようになったのは素晴らしいこと」(中嶋氏)

 次に、中嶋氏は“さらに一歩先”に進む画像認識技術の応用例として「NeuralTalk2」というライブラリを取り上げた。まず、NeuralTalk2を活用したアプリケーションで何ができるのかを示すビデオを再生。

 ビデオでは、スマートフォンのカメラで街中を撮影しながら歩き、「今、画面に映し出されているのは何か」をリアルタイムに自然言語のキャプション(英語)で表示していく様子が紹介された。たとえば、“a woman walking down a street with a cell phone”、“a building with a large window in the middle of it”といったように、撮影画面の変化に合わせて表示されるキャプションも瞬時に切り替わっていく。

 紹介ビデオだけでなく、NeuralTalk2についてもサンプル画像を使ったデモを実施。たとえば、犬が椅子の上に座っている写真をアップロードすると、“a dog sitting on a bench in front of a window”と、画像の内容が正確に自然言語で表現された。

 中嶋氏自身がニューラルネットワークに興味を持ち始めたのも、このNeuralTalk2がきっかけであり、「この技術を活用することで世の中が変わっていくと感じた」という。


  • LINEで送る
  • このエントリーをはてなブックマークに追加

著者プロフィール

バックナンバー

連載:【デブサミ2016】セッションレポート

もっと読む

All contents copyright © 2005-2018 Shoeisha Co., Ltd. All rights reserved. ver.1.5