SHOEISHA iD

※旧SEメンバーシップ会員の方は、同じ登録情報(メールアドレス&パスワード)でログインいただけます

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

【デブサミ2018 夏】セッションレポート(AD)

Sansan CTO 藤倉氏が導き出した、データ分析に必要な3つの要素とは?【デブサミ2018 夏】

【C-5】人脈の情報はどうやって蓄積されるのか?Sansan/Eight のデータエンジニアリング

  • X ポスト
  • このエントリーをはてなブックマークに追加

 クラウド名刺管理サービス「Sansan」や名刺アプリ「Eight」を提供するSansan株式会社。同社は、優れたデータエンジニアリング基盤を構築し、長きにわたって名刺の解析技術を向上させ続けてきた。いまや、日本でも有数の「データ分析が強い企業」であることは間違いないだろう。紙というアナログな物質を高精度でデジタルデータに変換するために、いかなる手法を用いているのか。蓄積されたデータを活用するにあたり重視すべきポイントとは何なのか。セッション「人脈の情報はどうやって蓄積されるのか? Sansan/Eight のデータエンジニアリング」では、同社のCTOである藤倉成太氏がそのポイントを語った。

  • X ポスト
  • このエントリーをはてなブックマークに追加

Sansan株式会社 最高技術責任者(CTO) 藤倉成太氏
Sansan株式会社 最高技術責任者(CTO) 藤倉成太氏

Sansan/Eightの屋台骨を支えるデータ化のプロセス

 紙の名刺を画像データとして取り込み、デジタルデータに変える。多くの人が知るように、Sansan社は創業から現在に至るまでこの技術を洗練させてきた企業だ。では、Sansan/Eightによる名刺のデータ化はいったいどのようなステップを経て行われるのだろうか。

Sansan/Eightにおけるデータ化の流れ
Sansan/Eightにおけるデータ化の流れ

 Sansan/Eightではまず専用のスキャナやスマホアプリから名刺を読み込む。スキャナは精度の高いものを使用しているため、画質に課題が生じることはほぼないものの、問題はスマホアプリにあるという。

 「手でスマホを持ってスキャンすると手ブレが発生します。また、画像から矩形を認識しなければならないということもあり、撮影機能では画像は静止画ではなく動画のストリームを扱わなくてはなりません。そして、動画ストリームの各フレームをリアルタイムで計算する必要があります。スマホアプリで名刺を撮影するという機能だけでも、研究開発が必要なくらいに難易度が高い領域なのです」

 取り込まれた画像データは、スマホアプリ経由の場合は矩形を切り取ったり補正したりといった画像加工処理をクライアントサイドで施したうえでサーバーサイドに送られる。

 だが、スマホのコンピューティングリソースは限られているため、できることは限定的だ。そのため、サーバーサイドで改めてホワイトニングやエッジング、拡大縮小といった画像の前処理が行われるのだという。

 次にあるのが、「マイクロタスク化」や「マイクロソーシング」といった工程だ。これは、名刺という機微な情報を、高い機密性を確保しながら処理するために施されるプロセスである。

 同社が処理している名刺の数は、年間で数億枚にも及ぶ。名刺情報の入力には多くの人の力が必要であり、社内のメンバーだけでは到底全ての作業を賄うことはできない。外部のビジネスパートナーとも連携しながらデータ処理を進めていくことになる。その際に、情報漏洩のリスクを最小限に抑えるための仕組みとして同工程は存在するのだという。

 「『マイクロタスク化』の工程では、名刺全体の画像データを会社名や氏名、Eメールアドレス、住所などのパーツ単位に切り分けます。この処理には画像解析や機械学習の技術が導入されており、『画像内の各要素がどんな種類の情報を指し示しているか』が自動判別されるようになっているのです。さらに、名前やメールアドレス、電話番号など個人を一意に特定しうるものに関しては、より詳細にパーツを細分化し、誰の情報なのかわからないような状態にします。この処理を行うことで、個人情報を安全に扱うことができるようになっています」

 パーツ単位まで細分化された名刺の情報は、入力作業が完了したものから順にSansanのサーバーサイドへとデータが戻り、「マージ(結合)」に至る。その後、最終チェックや補正のプロセスを経たうえで完成版のデータになるという。

次のページ
データを扱ううえで重要なポイントとは何か?

この記事は参考になりましたか?

  • X ポスト
  • このエントリーをはてなブックマークに追加
【デブサミ2018 夏】セッションレポート連載記事一覧

もっと読む

この記事の著者

CodeZine編集部(コードジンヘンシュウブ)

CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

【AD】本記事の内容は記事掲載開始時点のものです 企画・制作 株式会社翔泳社

この記事は参考になりましたか?

この記事をシェア

  • X ポスト
  • このエントリーをはてなブックマークに追加
CodeZine(コードジン)
https://codezine.jp/article/detail/11014 2018/09/05 14:00

おすすめ

アクセスランキング

アクセスランキング

イベント

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

新規会員登録無料のご案内

  • ・全ての過去記事が閲覧できます
  • ・会員限定メルマガを受信できます

メールバックナンバー

アクセスランキング

アクセスランキング