AWSでペタバイト級の大規模データを高速処理するには？フロムスクラッチの開発事例から学ぶ

注目スタートアップから学ぶ、ビジネスの課題を解決するAWSの活用術第2回

井戸端洋彰（フロムスクラッチCTO）[著] / 塚田朗弘（アマゾンウェブサービスジャパン株式会社）[監修]

2019/12/03 11:00

ポスト

　急成長中のスタートアップ企業は、多様なAWSサービスをどう選択・活用し、ビジネス課題を解決しているのでしょうか。本連載では、スタートアップ企業の中でエンジニアリングをリードしている担当者がそのアーキテクチャをひも解き、AWS活用術を紹介していきます。第1回はAWS SA直伝の技術トレンドをお届けしましたが、第2回からはいよいよ実際のスタートアップ企業による解説です。今回はフロムスクラッチCTOの井戸端洋彰氏が担当、テーマは「大規模データの高速処理」です。記事の最後には、SAによるポイント解説もあります。（編集部）

ポスト

莫大なコストがかかるデータマーケティングの課題を解決するために

　みなさん、こんにちは。株式会社フロムスクラッチにてCTOを務めております井戸端洋彰と申します。簡単に経歴をご紹介させていただきますと、新卒で外資系コンサルティング企業に入社し、クライアント企業の基幹システムの設計や開発、テスト等を3年経験した後に、現在のフロムスクラッチに転職しb→dashの初期構想や設計、構築に携わっております。

　私が勤めているフロムスクラッチの事業ビジョンは「スマートデータ社会の実現」です。つまり、世の中に溢れている大量のデータを、誰でも当たり前に使える社会（スマートデータ社会）を創り出したいと考え、マーケティングの領域においてb→dashというクラウド型データソリューションを開発、提供しています。

　本日は、このb→dashのシステム基盤として採用しているAWSの活用方法をご紹介します。

　b→dashは一言で申しますと「プログラミングスキルなしでデータの取込・や統合、・変換、活用が簡単にできるクラウド型データソリューション」です。

　現在、日本の多くの企業が、「労働生産性」を向上させることで、働き方に関する問題を解決しようとさまざまな取り組みを行っています。われわれは、その解決の鍵を握るのが、「データ」と「AI」と考えています。しかし実際に、活用に向けてデータマーケティングツールを導入しようとすると、一般的に以下の3つのフェーズで課題に直面します。

1. 活用フェーズ

　データ活用に向けてマーケティングツールを導入しようとするフェーズです。活用に向けてデータをシステムに取込む必要がありますが、この際に、「企業内にデータがバラバラに存在する為、その都度データを連携する工数が発生してしまう」という課題に直面します。

2. 統合フェーズ

　企業内に存在する複数のシステムと、マーケティングツールをそれぞれ連携することは膨大な工数がかかるため、CDP（Customer Data Platform：顧客データ統合基盤）というデータ統合基盤を構築しようとするフェーズです。しかし、このCDP構築には、取込・統合・変換という工程が必須であり、「SQL等の専門スキルが必要であるものの、そのスキルを持った人材が少ない」課題に直面します。

3. 運用フェーズ

　データをCDPに取込・統合・変換し、効率的なデータ運用を目指そうとするフェーズです。CDPの運用には、「社内のスキルあるエンジニアに依頼する」あるいは「社外のシステムインテグレーターに委託する」という2つのオプションしかありませんが、どちらにしても、「運用に膨大な工数やコストがかかる」という課題に直面します。

　つまり、莫大なコストを払い続けられる企業しかデータマーケティングを実現できない点がマーケティング領域におけるデータ活用の課題です。

　このような企業の課題を解消するために、b→dashを開発しました。以下は、b→dashの大きな特長です。

1. “ノープログラミング”でCDP構築可能

　新しいテクノロジーである“データパレット”という機能を提供し、SQLなどの専門スキルを持たないマーケターでも自由に、簡単に、あらゆるデータを扱える。

2. “いつでも”データが使えるCDPを搭載

　b→dash上にCDPがあるのでデータの取込～変換の回線が一本で済む。

3. “All in One”でデータ活用が可能

　データマーケティングに必要な機能、例えばマーケティングオートメーションやBIなどの機能を”All in One”で保持。b→dashさえあればデータマーケティングが可能。

　このような特長を持っているがゆえに、b→dash上では大量のデータが日々蓄積されており、その容量は累計で5ペタバイトにものぼります。これだけの大量データを高速で処理するために、AWSの各サービスを採用しました。

「億を超えるビッグデータ」を「高速で処理」するためにAWS Redshiftを採用

　まず採用したのがAWS Redshiftです。構成図は以下の通りです。

　「大量データ」を「高速で処理する」。これを実現するために最初に検討したことは、「データベース」をどういう仕組みで構築するか、という点でした。

　b→dashは数億レコードのデータに対してExcelのピボットテーブルのように処理できる柔軟性と処理速度を求めていたため、MySQLやPostgreSQLといった従来のリレーショナルデータベース管理システム（RDBMS）では、到底処理速度が求めるレベルに至りません。NoSQLを始め、いくつかのデータベースを数か月検討しても「これだ！」というものには出会えずにいました。

　そこでAWSのソリューションアーキテクトの方に相談したところ、当時まだリリースして間もなかったAmazon Redshiftは、億を超えるレコードのビッグデータでも高速に集計ができると聞き、早速検証に取り掛かりました。数億ものサンプルレコードを準備し、しっかりと検証を行った結果、1分もかからずに処理できることがわかり、Amazon Redshiftであればb→dashに必要な「大量データ」を「高速に処理する」ことを実現できると確信し、採用を決めました。

次のページ
AWS EMRとAmazon S3への移管で「複雑データの処理高速化」と「システムコスト最適化」

この記事は参考になりましたか？

印刷用を表示

ポスト

注目スタートアップから学ぶ、ビジネスの課題を解決するAWSの活用術連載記事一覧: AWS Fargateの活用事例――金融業界の繊細なセキュリティ課題をどう乗り越えるのか、...

カード業界の厳しいセキュリティと開発スピードをどう両立？ Kyashに学ぶAWS活用

AWSで賢く機械学習を実現するには？ FiNCの画像解析とレコメンドシステムに学ぶ

もっと読む

この記事の著者: 井戸端洋彰（フロムスクラッチCTO）（イドバタヒロアキ）

　東京大学大学院航空宇宙工学科出身。　国立天文台と共同で超小型人工衛星Nano-JASMINEの研究開発に携わり、主に超高精度のセンサー機器や光学機器、情報処理基盤の開発を行うかたわら、過去の開発経験のモデル化による設計最適化手法の研究に取り組む。　その後、新卒でアクセンチュアに入社し、オフショア...

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この著者の最近の執筆記事; 塚田朗弘（アマゾンウェブサービスジャパン株式会社）（ツカダアキヒロ）

　アマゾンウェブサービスジャパン株式会社ソリューションアーキテクト。　2011年から生放送系ウェブサービスの開発を経験した後、2013年よりスタートアップ企業にJoin。CTOとしてモバイルアプリ、サーバサイド、AWS上のインフラ管理を担当しつつ、採用やチームマネジメントを行う。2015年8...

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この著者の最近の執筆記事