Sansan/Eightの屋台骨を支えるデータ化のプロセス
紙の名刺を画像データとして取り込み、デジタルデータに変える。多くの人が知るように、Sansan社は創業から現在に至るまでこの技術を洗練させてきた企業だ。では、Sansan/Eightによる名刺のデータ化はいったいどのようなステップを経て行われるのだろうか。
Sansan/Eightではまず専用のスキャナやスマホアプリから名刺を読み込む。スキャナは精度の高いものを使用しているため、画質に課題が生じることはほぼないものの、問題はスマホアプリにあるという。
「手でスマホを持ってスキャンすると手ブレが発生します。また、画像から矩形を認識しなければならないということもあり、撮影機能では画像は静止画ではなく動画のストリームを扱わなくてはなりません。そして、動画ストリームの各フレームをリアルタイムで計算する必要があります。スマホアプリで名刺を撮影するという機能だけでも、研究開発が必要なくらいに難易度が高い領域なのです」
取り込まれた画像データは、スマホアプリ経由の場合は矩形を切り取ったり補正したりといった画像加工処理をクライアントサイドで施したうえでサーバーサイドに送られる。
だが、スマホのコンピューティングリソースは限られているため、できることは限定的だ。そのため、サーバーサイドで改めてホワイトニングやエッジング、拡大縮小といった画像の前処理が行われるのだという。
次にあるのが、「マイクロタスク化」や「マイクロソーシング」といった工程だ。これは、名刺という機微な情報を、高い機密性を確保しながら処理するために施されるプロセスである。
同社が処理している名刺の数は、年間で数億枚にも及ぶ。名刺情報の入力には多くの人の力が必要であり、社内のメンバーだけでは到底全ての作業を賄うことはできない。外部のビジネスパートナーとも連携しながらデータ処理を進めていくことになる。その際に、情報漏洩のリスクを最小限に抑えるための仕組みとして同工程は存在するのだという。
「『マイクロタスク化』の工程では、名刺全体の画像データを会社名や氏名、Eメールアドレス、住所などのパーツ単位に切り分けます。この処理には画像解析や機械学習の技術が導入されており、『画像内の各要素がどんな種類の情報を指し示しているか』が自動判別されるようになっているのです。さらに、名前やメールアドレス、電話番号など個人を一意に特定しうるものに関しては、より詳細にパーツを細分化し、誰の情報なのかわからないような状態にします。この処理を行うことで、個人情報を安全に扱うことができるようになっています」
パーツ単位まで細分化された名刺の情報は、入力作業が完了したものから順にSansanのサーバーサイドへとデータが戻り、「マージ(結合)」に至る。その後、最終チェックや補正のプロセスを経たうえで完成版のデータになるという。