【デブサミ2016】セッションレポート（AD）

【デブサミ2016】19-E-2レポート
話題の機械学習ライブラリで防犯カメラはここまで進化する！～画像認識・異常検出×IoTでできること

2016/03/17 14:00

ポスト

　2015年より、ブームと呼べるほどの注目が集まるディープラーニング。ディープラーニングとは多層構造のニューラルネットワークのことだが、ではニューラルネットワークとは何かと言うと……一般的には「脳の神経回路を模した機械学習のアルゴリズム」だが、その本質や仕組みを理解するのはなかなか難しい。日本オラクルクラウド・テクノロジー事業統括 PaaS事業推進室 PaaS Evangelistの中嶋一樹氏も「多くの方にとって理解し難い領域であるのは事実」としながら、「ただし、ニューラルネットワークを使ってできることは非常に面白く、かつ、より身近になってきている」として、画像認識をはじめとした参加型のデモを実施。こうした機械学習の技術とIoT（Internet of Things）がつながることによって、何が変わるのか、どんなサービスに応用できるのかなど、身近な例を挙げて紹介した。

ポスト

日本オラクルクラウド・テクノロジー事業統括 PaaS事業推進室 PaaS Evangelist 中嶋一樹氏

講演資料：鳥肌必至のニューラルネットワークによる近未来の画像認識技術を体験し、IoTの知られざるパワーを知る

誰もが手軽に体感できるようになった最新の画像認識技術

　ニューラルネットワークでできることは多岐にわたる。中でもよく知られるのが画像認識だ。画像認識の一環である「顔認識」なども当初は驚くべき技術だったが、今日ではFacebookやアップルの写真（Photos）アプリなどですっかりおなじみの機能となった。また、世界的に研究が進む自動運転の分野においても、人や道路の状況を把握するために画像認識の技術が応用されている。

　中嶋氏は「現代のニューラルネットワークの技術ではどれほどの精度で画像を認識できるのか、まず体感していただきたい」と語り、デモを披露した。

　最初のデモ環境でキーとなるライブラリは、「TensorFlow」と「ImageNet」の2つ。TensorFlowは、2015年11月にGoogleがオープンソース化して公開した機械学習の開発ライブラリで、セットアップや記述が簡単なのが特徴だ。一方、ImageNetは機械学習用の学習画像データ（リファレンスデータモデル）で、世界中の物体について平均1000の画像を保持している。

　「ImageNetは、昨年のTED Conferenceでスタンフォード人工知能研究所所長のフェイフェイ・リー氏がプレゼンテーションで取り上げたことでも話題となった。ImageNetのみならず、画像認識技術の今を理解するうえで非常にわかりやすいプレゼンテーションなので、興味のある方はぜひご覧いただきたい」（中嶋氏）

「コンピュータが写真を理解するようになるまで」（TED）

　これらのライブラリがバックエンドで稼働しているNode.jsのWebアプリケーションを使って、中嶋氏はサンプル画像をいくつか解析してみせた。たとえば「薪ストーブ」の写真は、99％の信頼度でストーブと解析された（一見「暖炉」に似ているが、暖炉と薪ストーブは厳密には別物であり、解析結果は大正解とのこと）。また、ウイスキー白州のボトルは信頼度51％で「ビールのボトル」、44％で「ワインボトル」という解析結果に。惜しくも不正解だったが、ボトルであることは認識されたようだ。

　中嶋氏は、続いて画像アップローダのWebフォームURLを公開し、セッション受講者にその場でデモへの参加を呼びかけた。受講者の多くはスマートフォンやPCから続々と写真をアップロードし、それらはリアルタイムでスクリーンに映し出され、解析された。解析結果については、それぞれ本人が「正解」「残念」「惜しい」のリボンを付けていく仕組みで、なかなかに優秀な認識精度、そして解析スピードを体感することができた。

　「TensorFlowとImageNetという誰もが使えるオープンな技術を活用して、このような画像認識を手軽に実現できるようになったのは素晴らしいこと」（中嶋氏）

　次に、中嶋氏は“さらに一歩先”に進む画像認識技術の応用例として「NeuralTalk2」というライブラリを取り上げた。まず、NeuralTalk2を活用したアプリケーションで何ができるのかを示すビデオを再生。

「NeuralTalk and Walk」（Vimeo）

　ビデオでは、スマートフォンのカメラで街中を撮影しながら歩き、「今、画面に映し出されているのは何か」をリアルタイムに自然言語のキャプション（英語）で表示していく様子が紹介された。たとえば、“a woman walking down a street with a cell phone”、“a building with a large window in the middle of it”といったように、撮影画面の変化に合わせて表示されるキャプションも瞬時に切り替わっていく。

　紹介ビデオだけでなく、NeuralTalk2についてもサンプル画像を使ったデモを実施。たとえば、犬が椅子の上に座っている写真をアップロードすると、“a dog sitting on a bench in front of a window”と、画像の内容が正確に自然言語で表現された。

　中嶋氏自身がニューラルネットワークに興味を持ち始めたのも、このNeuralTalk2がきっかけであり、「この技術を活用することで世の中が変わっていくと感じた」という。

次のページ
IoTや機械学習対応DBとの連携による新サービスへの応用例

この記事は参考になりましたか？

印刷用を表示

ポスト

【デブサミ2016】セッションレポート連載記事一覧: 【デブサミ2016】19-D-Lレポート　エンジニアの成長こそが組織の価値を高める源泉！...

【デブサミ2016】18-D-4レポート　スクエニのゲームインフラを構築・運用してわかった...

【デブサミ2016】19-C-6レポート　非エンジニアの窓口担当者がChatOpsで検証環...

もっと読む

この記事の著者: CodeZine編集部（コードジンヘンシュウブ）

CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この著者の最近の執筆記事