CodeZine(コードジン)

特集ページ一覧

手軽に説得力のあるデータ分析をするために。統計ツールと見せ方のポイント

エンジニアが生き残るためのテクノロジーの授業 第4回

  • LINEで送る
  • このエントリーをはてなブックマークに追加
2016/11/17 14:00

目次

説得力のあるアウトプットも大切

データをどのように見せるか

 最近の分析ツールは、プログラミングしなくても簡単に結果を出力できるものが増えています。一方で、ツールが出力した結果をそのまま使うだけでは、伝わりやすい内容になっているとはいえません。

 例えば、携帯電話事業者のシェアを円グラフにしてみましょう。一般社団法人電気通信事業者協会が集計しているデータをもとに、Excelで単純にグラフを作成した例が図5の左側です。内容は間違っていませんし、凡例により正しく認識できます。

 しかし、この色を少し変えて、右図のようにしてみると、直感的に分かりやすくなります。同じ内容を表すグラフですが、凡例が不要な人も多いでしょう。その理由は、「コーポレートカラー」に合わせたことです。こういった工夫も重要になります。

図5 携帯電話事業者トップ3社のシェアの例(2016年6月のデータ)
図5 携帯電話事業者トップ3社のシェアの例(2016年6月のデータ)

データ以外の部分でも納得させる

 データとして表れていても、そのデータに対して懐疑的な人がいます。例えば、マーケティングの現場では「バナー広告のクリック率を上げるには顔写真を入れる」といったことが常識となっています。

 実際、バナー広告に対してA/Bテストを行ってみると、顔写真の有無によって結果が変わることはよくあります。しかし、その結果について疑問を持つ人もいるでしょう。このとき、実際に多くの広告会社が顔写真を使っている事例を見せると「実績がある」として納得する場合があります。

 ちょっと、Googleの画像検索で「カードローン」を検索してみましょう。

 各社のバナー広告が表示されますが、その多くに顔写真が入っていることが分かります。これらの会社は徹底的にデータを分析しているはずです。その結果としてこのような結果になっているのであれば、効果に対する説得力が増すのではないでしょうか?

社内外のデータを組み合わせる

 最近は「ビッグデータ」という言葉が話題になるように、大量のデータがあることで見えてくる事実もあります。しかし、多くの企業では「データを集める」という課題があります。どれだけ分析ツールに精通していても、データがないと分析できません。

 分析するためのデータを集めるだけでなく、前処理も必要ですし、アンケートなどの場合は一定の精度を確保するのも大変です。最近は安価なセンサーでも高性能な機器が登場しており、設置するだけでデータを収集できますが、自社で調達できるデータだけでは、その内容は限られているでしょう。

 既存のデータを活用するときに分かりやすいのは「オープンデータ」の活用です。公的な統計データの一部はオープン化されており、誰でも簡単に入手できます。例を挙げると、政府統計の総合窓口e-Statは、各府省のデータを一元的に提供しているポータルサイトです(図6)。登録されている統計データの多くはExcelやCSVで出力でき、検索だけでなく地図を使って「見える化」できる機能などもあります。

図6 国勢調査による人口統計の利用例
図6 国勢調査による人口統計の利用例

 データベース化されている複数の統計データの場合は、組み合わせて分析するだけでなく、API機能を使ってアプリケーションから直接接続した活用も可能です。こういったデータをうまく活用すれば、時間もお金も節約して、豊富なデータをもとに分析できます。

個人情報と「k-匿名化」

注意が必要な個人情報

 データ分析時に、注意事項として挙げられるのが個人情報の取り扱いです。アンケートにおけるデータの収集だけでなく、会員登録や商品購入時に個人情報を登録する場合にも、利用者はプライバシーポリシーを確認、同意して提供しています。しかし、実際にそのとおりに企業でデータが使用されているか、利用者には分かりません。つまり、利用者から疑念を抱かれないように、適切な処理を行わなければなりません。

 多くの企業では、「サービス向上のために必要な範囲で統計データとして、お客様を識別できない状態で利用する」といった内容がプライバシーポリシーに記載されています。分かりやすいのは、氏名や住所、生年月日や血液型など、個人情報が含まれている項目を除外して統計データを作成する方法で、多くの企業で使われているでしょう。

個人を特定できないようにする工夫

 また、識別情報を除外する方法としてよく用いられる方法が「k-匿名化」です。住所をあいまいにする、生年月日を年齢に変えて「10代」「20代」のように幅を持たせる、といった考え方で、「東京都新宿区在住の30代男性」であれば、多くの人が当てはまるので個人を特定できません。しかし、この方法でも「種子島在住の100歳以上の女性」のように人口が少ないところでは個人を特定できてしまう可能性があります。

 k-匿名化では同じ属性を持つ人がk人以上いるように加工し、個人を特定できないようにします。例えば、住所については都道府県単位にすれば、上記のような問題はほぼ発生しなくなります。

 このように、データ分析はツールの使い方だけでなく、分析結果の表現やデータ収集の方法、セキュリティに関する内容まで幅広い視点が必要になります。エンジニアだからこそできることもたくさんあるので、積極的に関わっていきたいところです。

 次回は、攻撃からデータなどを守るための情報セキュリティについて解説します。

単行本化のお知らせ

 2016年12月17日に、この連載をベースにした新刊『エンジニアが生き残るためのテクノロジーの授業』が発売されました!

 ITとビジネスの関係、コンピュータ、ネットワーク、プログラミング、データベース、セキュリティ、人工知能など、本連載で解説した内容も含め、エンジニアなら誰もが知っておくべきテーマを一冊で学ぶことができます。

 IT業界でずっと活躍するために、本物の力を身につけよう。



  • LINEで送る
  • このエントリーをはてなブックマークに追加

バックナンバー

連載:エンジニアが生き残るためのテクノロジーの授業

著者プロフィール

  • 増井 敏克(マスイ トシカツ)

    増井技術士事務所 代表。技術士(情報工学部門)、テクニカルエンジニア(ネットワーク、情報セキュリティ)、その他情報処理技術者試験に多数合格。 ITエンジニアのための実務スキル評価サービス「CodeIQ」にて、情報セキュリティやアルゴリズムに関する問題を多数出題している。 また、ビジネス数学検定1級に...

あなたにオススメ

All contents copyright © 2005-2021 Shoeisha Co., Ltd. All rights reserved. ver.1.5