Shoeisha Technology Media

CodeZine(コードジン)

記事種別から探す

【西内啓氏 × ミック氏】 データエキスパート対談
これからは分析を意識したデータマネジメント力がエンジニア全員に必要になる

CodeZine スーパー対談 シリーズ 第1回

  • LINEで送る
  • このエントリーをはてなブックマークに追加
2014/06/25 14:00

 著書『統計学が最強の学問である』が35万部を突破するなど、統計学ブームの端緒をつくった統計家・西内啓氏と、『達人に学ぶ SQL徹底指南書』をはじめとする自著やSQLの大家ジョー・セルコの著作の翻訳でSQL・DB利用者に啓蒙活動を続ける自称セルキアン、ミック氏。異なるフィールドで活躍する2人のデータエキスパートの対談がCodeZineで実現しました。対談で浮き彫りなったのは、データ分析の現場やデータ活用を行う組織に潜むリアルな問題。西内氏、ミック氏がそれらにどう対応しているのか、我々へのアドバイスと共に語ってくれました。

目次

有効な分析結果を得るのに「ビック」なデータは本当に必要?

―― 普段はどのような活動を?

西内 ► 統計家として、いろんなデータ分析に携わっています。大きく分けると、自分が実際に手を動かすケースと、ユーザをデータ分析できるよう研修を行ったり、環境構築をヘルプしたりするケースがあります。最近では、分析ツールをスクラッチで作るような仕事が増えてきました。

ミック ► DBとSQLを主なフィールドとしているエンジニアです。自分でSQLを書いて分析などを行っていたこともあります。最近は、運用も含めたデータウェアハウスやBIシステムの設計を主にやっています。

―― 最近多くの企業がビッグデータに取り組んでいます。データのエキスパートであるお二人の目に、この現状はどのように映っていますか?

西内 ► 皆さんが分析というところに向いたという意味では、すごくいい面がある一方で、そもそも「ビッグ」でなくてはいけない、かどうかというところでギャップがあるんじゃないかと思っています。

ミック ► そこは西内さんと同じような感想を持つことがあります。ビッグデータという言葉が出てきたときに、データ量が増えること自体で、そんなにいいことがたくさんできるのかな? という素朴な疑問はありました。リアルタイムで見られるようになってくるとか、いままで扱えなかったデータが扱えるようになってくるという意味でのビッグデータには、とても可能性を感じるのですが。

西内 ► 私がそこに疑問を持ち始めたころ、雑誌などメディアを見ると、「ビッグデータには3Vs(volume/value/velocity)が大事なんだ」などと書いてあって。最初はそんなこと、言ってなかったじゃないかと(笑)

西内啓氏
西内 啓(にしうち ひろむ):データに基づいて社会にイノベーションを起こすためのさまざまなプロジェクトにおいて、調査・分析・システム開発および戦略立案に携わる。ミック氏の翻訳書『SQLパズル 第2版』にチャレンジするほどのSQLファン。著書に『統計学が最強の学問である』『1億人のための統計解析 エクセルを最強の武器にする』など。

 

―― そもそも「ビッグ」なデータは必要なのでしょうか?

西内 ► 少なくとも、全体の傾向を見るというところでは、サンプリングである程度いけると思います。そうではない部分、本当にビッグデータが必要な部分とは切り分けた方がいいんじゃないかと思っています。例えば、ECサイトで「うちのECサイトで何百万円も買ってくれるお客さんがいるが、いったいどういう人なんだろう」ということに関しては、ランダムサンプリングでは出てきません。その辺りを知りたいのか、それとも、とにかく全体の傾向性を知りたいのかという線引きはすごく重要です。

データ分析・活用現場のボトルネック①「組織・体制」

ミック ► 私も最近、ECサイトなどの分析システム構築を手伝うことがあるのですが、分析結果をかなりスピーディーに出すことが求められます。これまで、データの統計分析は長期スパンで行うものだと思っていました。長期的な傾向を見るということもありますし、分析自体がけっこう時間の掛かる作業だったというイメージで。西内さんのお仕事の中でも、リアルタイムで分析してほしいといった需要は高いのですか?

西内 ► そうですね、そうした需要は高いです。ただ、「今日渡したデータを分析して明日報告してください」という要求に応えるのは、そんなに難しくありません。統計解析・分析からアウトプットを出すまでを考えると、ボトルネックになるのは「アクションの打ち手」の方だったりするんです。

 アウトプットとして、例えば「サイトのデザインを変えましょう」とか「こういう商品を作りましょう」といったアイデアが出てきたときに、すごくスピード感のあるベンチャーなどのように、「わかった、オレがOKというからデザイナーはそのようにやってくれ」となれば問題ないのですが、大企業病でアクションが遅いところでは、いろんな人に報告していくうちにアクションが遅くなったり、ひどいときには、アクション自体がいつの間にかなくなっていたりとか。

―― ボトルネックは、データ分析の結果を利用する企業の組織や運営側の体制にある、と。

西内 ► そうですね。分析の結果を活かしやすい社風の会社と活かしにくい社風、活かしやすい組織構造とそうじゃない組織構造というような温度差はありますね。

 経営学の世界にはTOC(theory of constraints: 制約条件の理論)という概念があります。「物を仕入れてきて、パーツを製造し、組み上げて、販売するというフローの中で、一番弱いところがボトルネックになり、それ以上の生産性は出てこない」という考え方です。

 分析もこれとまったく同じです。データのクオリティがボトルネックになることもあれば、それを分析する人の技術がボトルネックになることもありますし、分析する環境がボトルネックになることもあるんですが、一番重要な問題はその後です。分析の結果を報告していく人、報告を受けて手を動かす人など、いろんな人の間をインテリジェンス(インフォメーションよりもう少し高度な何か)が流れていくんですけど、その中にボトルネックになる人がいると、それ以上の性能が出なくなってしまうんです。


  • LINEで送る
  • このエントリーをはてなブックマークに追加

著者プロフィール

  • 小川 範夫(オガワノリオ)

    ネットワーク型やカード型のデータベースの時代から、データベース界隈を興味の赴くままウン十年さまようデータベースマニア(ミーハー)。ミックさんの本を読んではDB・SQLに思いを馳せ、西内さんの本を読んでは統計学・R言語をやろうと思うものの、日々ビールを飲んで眠ってしまい、積ん読本ばかりが増える日々。基...

バックナンバー

連載:CodeZineスーパー対談
All contents copyright © 2005-2017 Shoeisha Co., Ltd. All rights reserved. ver.1.5