CodeZine(コードジン)

特集ページ一覧

Sansan CTO 藤倉氏が導き出した、データ分析に必要な3つの要素とは?【デブサミ2018 夏】

【C-5】人脈の情報はどうやって蓄積されるのか?Sansan/Eight のデータエンジニアリング

  • LINEで送る
  • このエントリーをはてなブックマークに追加
2018/09/05 14:00

目次

データを扱ううえで重要なポイントとは何か?

 藤倉氏は約10年にわたり、Sansan/Eightのデータと向き合ってきた。その経験を通じて、データに対して大きく3つの点を理解してきたという。

 1つ目は、データの種別によって取り扱いに求められる慎重さが異なり、かつ創出できる価値も変わってくるということだ。例えば、名刺データは一つひとつが個人情報である。一方で、もともと公になっている気象や交通などのデータも存在する。そして当然ながら、それらは入手の難易度が全く異なる。

 「入手が容易なデータの場合、それを用いることで新しい価値を見出していくことは非常に困難です。考えてみれば当たり前で、誰もがアクセスできるデータならば、長い人類の歴史のなかで数多くの人がそのデータを利用して価値を生み出そうと挑戦してきた可能性が高い。そこから全く新しい価値を生み出すには、他の誰もが真似できないほど高度な技術を活用するなどしか道は残されていません。一方で、名刺情報といった極めて慎重に扱うべきデータは取り扱いが難しく、そもそも向き合ってきた人の数自体が少ないです。そのデータから価値を見出していく作業には多くの余地が残されていると考えています」

 企業や個人が何かのデータと対峙する場合には、その情報がどんな性質を持つものなのかをよく理解したうえで扱うことが重要となる。つまりデータの特性そのものが、ビジネスのアイデアやサービスの設計、必要コストなどに多大なる影響を与えるのだ。

 2つ目は、データ構造の複雑度合いが、使用可能な(または使用すべき)データストアを規定するということ。

 直近10年ほどの間で、データストアの技術は飛躍的に進歩し、数多くの新しいツールが登場した。だが、データが持っている特性とツールが前提する設計思想が異なるならば、用いられている技術がどれほど優れているとしても、両者はアンマッチであり運用には耐えない。だからこそ、RDBMSやグラフDB、NoSQL、KVSなどを選定する際には、扱うデータの持つ「構造」に着目することが重要になるのだという。

 3つ目が、データには「集める(入口)」と「価値を提供する(出口)」という2つのフェーズが存在しており、両方を対にして考える必要があるということ。

 入口のフェーズにおいては、収集する主体が何らかの報酬を払って集めてくる場合と、逆に提供主体が能動的にデータを提供する場合がある。ユーザーに商品券などを配布してアンケートに答えてもらうのは前者にあたり、ユーザーの行動ログを収集するのは後者に当たるだろう。

 また、その情報をどのような方法で出口に結びつけるかにもいくつかのパターンがある。例えば、入口で得たデータの分析結果をそのままプロダクトにフィードバックするのか、全く別のプロダクトに変換するのか。

 目的が不明瞭なまま入口と出口の設計を行ってしまえば、ちぐはぐな結果しか出てこないこともあり得る。データは「なんとなく」で分析をしても良質なアウトプットを生み出すことはできないからだ。

 どのような出口に向かいたいかに応じて、使うべき分析の手法や基盤は全く異なってくる。その意識を持つことが、効率的かつ効果的にデータ分析を行ううえで大切なのだという。

データの理解における3つのポイント
データの理解における3つのポイント

 Sansan社のデータ基盤を長きにわたり支えてきたものが技術であることは間違いない。しかしそれだけではなく、「データとの向き合い方」にもその秘訣があった。

お問い合わせ

 Sansan株式会社



  • LINEで送る
  • このエントリーをはてなブックマークに追加

バックナンバー

連載:【デブサミ2018 夏】セッションレポート

もっと読む

著者プロフィール

  • CodeZine編集部(コードジンヘンシュウブ)

    CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。

あなたにオススメ

All contents copyright © 2005-2022 Shoeisha Co., Ltd. All rights reserved. ver.1.5