実際に失敗しないと身につかない――ディープラーニングは経験の積み重ねが重要
吉田:初めてのディープラーニングプロジェクトには失敗がつきものです。皆さんの経験を踏まえて、陥りがちな失敗エピソードを教えてください。
曽我部:精度が高く喜んでいたものの、ソースコードを確認すると評価データとテストデータが混じってしまうといったミスを昔はよくやっていましたね。
もうひとつありがちな失敗が、モデリングにいきなり入ってしまうことです。データの前処理が重要であることは理解しているつもりでしたが、身にしみていませんでした。
でも、何度か痛い目に遭わないと、人の話を聞いても身につかないと思います。いずれにしてもデータの形状、特徴をちゃんと学習させるためにデータをどう扱うのか、データの前処理をセオリー通りやることから始めることが大事。何が改善されているのかわかりませんからね。
吉田:私も路面下空洞探査にディープラーニングを適用した際、超音波のデータを画像にする方法を採用したのですが、各画像のコントラストが違うことで分析に悩みました。専門家に聞くと、きちんとコントラストを調節しなくてはいけなかったのです。どういったデータを使っていくか、しっかり議論することは非常に重要なことですが、実際に体験してみないとわからないですよね。そのためにも早く始めて、経験を積むことがいいのではないでしょうか。
巣籠:ディープラーニングの実用に向けては「データ」「アルゴリズム」「ビジネスターゲット」の3つの関係が重要です。よく間違えがちなのが、精度の高さを追い求めてしまうこと。
私が開発に携わったキュレーションサイトの「グノシー」は、当初ユーザーのSNS上の活動からその人の興味を分析して、その人が好むであろうニュースを配信していました。ユーザーが好む記事を当てる精度を90%から91%に改善することに取り組み、実際のサービスに当てはめてみると、「ニュースが単一的になってつまらない」といったフィードバックがたくさん送られてきました。つまり、ある程度外れることによって、面白い記事が得られていたということです。ビジネスターゲットが間違っていると、正三角形のバランスが崩れてしまいます。ディープラーニングで数字に踊らされてしまうのはありがちなミスでしょう。