誰もが手軽に体感できるようになった最新の画像認識技術
ニューラルネットワークでできることは多岐にわたる。中でもよく知られるのが画像認識だ。画像認識の一環である「顔認識」なども当初は驚くべき技術だったが、今日ではFacebookやアップルの写真(Photos)アプリなどですっかりおなじみの機能となった。また、世界的に研究が進む自動運転の分野においても、人や道路の状況を把握するために画像認識の技術が応用されている。
中嶋氏は「現代のニューラルネットワークの技術ではどれほどの精度で画像を認識できるのか、まず体感していただきたい」と語り、デモを披露した。
最初のデモ環境でキーとなるライブラリは、「TensorFlow」と「ImageNet」の2つ。TensorFlowは、2015年11月にGoogleがオープンソース化して公開した機械学習の開発ライブラリで、セットアップや記述が簡単なのが特徴だ。一方、ImageNetは機械学習用の学習画像データ(リファレンスデータモデル)で、世界中の物体について平均1000の画像を保持している。
「ImageNetは、昨年のTED Conferenceでスタンフォード人工知能研究所所長のフェイフェイ・リー氏がプレゼンテーションで取り上げたことでも話題となった。ImageNetのみならず、画像認識技術の今を理解するうえで非常にわかりやすいプレゼンテーションなので、興味のある方はぜひご覧いただきたい」(中嶋氏)
- 「コンピュータが写真を理解するようになるまで」(TED)
これらのライブラリがバックエンドで稼働しているNode.jsのWebアプリケーションを使って、中嶋氏はサンプル画像をいくつか解析してみせた。たとえば「薪ストーブ」の写真は、99%の信頼度でストーブと解析された(一見「暖炉」に似ているが、暖炉と薪ストーブは厳密には別物であり、解析結果は大正解とのこと)。また、ウイスキー白州のボトルは信頼度51%で「ビールのボトル」、44%で「ワインボトル」という解析結果に。惜しくも不正解だったが、ボトルであることは認識されたようだ。
中嶋氏は、続いて画像アップローダのWebフォームURLを公開し、セッション受講者にその場でデモへの参加を呼びかけた。受講者の多くはスマートフォンやPCから続々と写真をアップロードし、それらはリアルタイムでスクリーンに映し出され、解析された。解析結果については、それぞれ本人が「正解」「残念」「惜しい」のリボンを付けていく仕組みで、なかなかに優秀な認識精度、そして解析スピードを体感することができた。
「TensorFlowとImageNetという誰もが使えるオープンな技術を活用して、このような画像認識を手軽に実現できるようになったのは素晴らしいこと」(中嶋氏)
次に、中嶋氏は“さらに一歩先”に進む画像認識技術の応用例として「NeuralTalk2」というライブラリを取り上げた。まず、NeuralTalk2を活用したアプリケーションで何ができるのかを示すビデオを再生。
- 「NeuralTalk and Walk」(Vimeo)
ビデオでは、スマートフォンのカメラで街中を撮影しながら歩き、「今、画面に映し出されているのは何か」をリアルタイムに自然言語のキャプション(英語)で表示していく様子が紹介された。たとえば、“a woman walking down a street with a cell phone”、“a building with a large window in the middle of it”といったように、撮影画面の変化に合わせて表示されるキャプションも瞬時に切り替わっていく。
紹介ビデオだけでなく、NeuralTalk2についてもサンプル画像を使ったデモを実施。たとえば、犬が椅子の上に座っている写真をアップロードすると、“a dog sitting on a bench in front of a window”と、画像の内容が正確に自然言語で表現された。
中嶋氏自身がニューラルネットワークに興味を持ち始めたのも、このNeuralTalk2がきっかけであり、「この技術を活用することで世の中が変わっていくと感じた」という。