Developers Summit 2022 レポート（AD）

データサイロ化とコストの課題を克服してノバセルが迅速にデータ基盤を構築できた理由【デブサミ2022】

【17-D-2】ノバセルの急成長を支えるために、爆速でデータ基盤を構築した話

2022/04/18 12:00

ポスト

　運用型テレビCM「ノバセル」を提供しているノバセル社は、ビジョンとして「マーケティングの民主化」を掲げ、マーケティングのプランニングを民主化し、広告効果を民主化することを進めている。このビジョンを達成するためにノバセルは、データドリブンな意思決定を加速している。デブサミ2022では、「ノバセルの急成長を支えるために、爆速でデータ基盤を構築した話」というタイトルで、ノバセルがどのようにデータサイロ化やコストの課題を克服し、迅速にデータ基盤を実現できたのかを、ノバセル株式会社CTOの戸辺淳一郎氏が説明した。さらに、ノバセルのモダンなデータ基盤でも重要な役割を担ったETL/ELTツールのtroccoについて、同製品を提供するprimeNumberのCPO 小林寛和氏がその機能の特長やなぜフルマネージドのSaaSで提供するかなどについて解説した。

ポスト

データのサイロ化とコストの課題を解決する新しいデータ基盤とは

　会社の経営でも何らかのプロジェクトを進める際にも、ビジョンがあることが前提となる。ビジョンの背景に"Why""What"があり、その解決手段に"How"がある。ノバセルでは「マーケティングの民主化」というビジョンを達成するために、データ基盤を軸に「データドリブンな意思決定を加速する」ことを掲げている。

　ところで組織においてデータ基盤を構築する際の課題が、データのサイロ化だ。データが散らばっていると、どこに何があるかが分からなくなる。サイロ化の解消はデータウェアハウスだけでは難しいため、データ基盤のアーキテクチャにはデータレイクを取り入れることが多い。ノバセルでは「データレイクを支える最重要と言える"Single Source of Truth"の概念を、データプラットフォームの根幹に置きました」と言うのは、ノバセルのCTO 戸辺淳一郎氏だ。

　もう1つの課題がコストだ。データウェアハウスにはAmazon RedshiftやGoogle BigQueryを使うことが多い。Redshiftは分析時に追加コストは発生しない代わりに、ストレージもコンピューティングリソースも常にコストがかかる。BigQueryは全体的には安価だが、分析の際にクエリーコストが発生する。例えば10億件のレコードから1件を見つけるようなクエリーを発行する際に、パーティショニングやインデックスの設定をしていないと、10億件の探索に対するコストがかかるのだ。

　対してここ最近注目されているSnowflakeは、BigQueryと同様にクエリー実行時にコストがかかる。とはいえSnowflakeは、ユーザーがインデックスやパーティショニング設定などを意識せずとも、クエリーが最適化されチューニングの手間がない。Snowflakeは日本ではまだそれほど普及していないが、既に世界ではRedshiftやBigQueryをしのぐシェアがある。シェアが高いことは重要であり、広く使われていれば3rdパーティー製品が積極的にサポートすると戸辺氏は指摘する。

　実は、従来型のデータウェアハウスとデータレイクは10年以上進歩のないアーキテクチャだ。そのためノバセルでは、データウェアハウスとデータレイクを分けない構成を考えた。それはデータの発生箇所となるデータソースがあり、それをサイロ化せずに使いやすく溜めておくデータゾーン、さらに蓄積したデータをBIツールなどで分析するデータコンシューマの構成だ。データゾーンは従来のデータレイクとデータウェアハウスに相当し「ここではぜひSnowflakeを使ってみてほしい」と戸辺氏は言う。

　Snowflakeはデータレイクとデータウェアハウスを分ける必要がなく、半構造化データも構造化データも扱え、自由なフォーマットでデータを保存できる。従来型のデータウェアハウスのように書き込み時にスキーマが決まっていなければならないスキーマ・オン・ライトではなく、データ利用時にスキーマを定義すれば良いスキーマ・オン・リードに対応しており、データレイクのようにもデータウェアハウスのようにも利用できるのだ。

　このノバセルのモダンなデータ基盤のアーキテクチャで、データソースからSnowflakeにデータ投入する部分で使われているのがtroccoだ。troccoがSnowflakeにいち早く対応しており、その上で国内の主要な広告プラットフォームを含むさまざまなデータソースに対応していることがポイントだった。「troccoはデータソースからノーコードでSnowflakeに取り込むことができ、なおかつバックエンドはコンテナになっているので、互いにパフォーマンスに影響を及ぼすことなく、実質無制限に並列処理が可能となっています」と戸辺氏。

　またtroccoは、転送中のデータをバッファリングすることが出来るため、Snowflakeの稼働時間を最小限に留めることができ、コストの削減も図れる。これら一連のtroccoの処理はワークフロー機能を利用することで、簡単にジョブ管理を行うことができる。このようにノバセルでは、trocco、Snowflake、BIツールとしてRedashを組み合わせて、モダンなデータ基盤を構築した。この組み合わせで「サイロ化の課題、コストの課題を解決しています」と戸辺氏は言う。

構築やメンテナンスに手間をかけずマネージドサービスを活用する

　サービス開始当初から広い範囲のユーザー層にビジネス展開するならば、早い段階からデータ基盤の優先度は高まる。ノバセルではビジネスを開始した当初はユーザーも限られ、顧客状況のデータを集めるデータ基盤の整備よりも人手による個々のユーザーからヒアリングを重視していたと戸辺氏は振り返る。

　また組織が小さい段階でデータ基盤を導入する際は、専任担当者がいなくても構築できるものを目指すべきだとも指摘する。目的に合わせ最初は最小限で構築する。その際にはSnowflakeのスキーマ・オン・リードの自由度の高さと、柔軟で簡単にデータを収集できるtroccoがあればデータを溜めるのに手間がかからない。手間なくデータを溜められることで、浮いたぶんの工数をサービス開発などに充てられると言うのは、primeNumberのCPO 小林寛和氏だ。

　ノバセルも事業立ち上げ時、まだエンジニアが少ない中で迅速にデータ基盤を構築できたのは、troccoとSnowflakeでデータ収集やその後のチューニングに手間がかからなかったからで、それが事業のスピードを上げることに貢献したと戸辺氏も言う。

　primeNumberは2015年に創業、データエンジニアに特化した事業を展開している。troccoはデータ基盤のための技術スタックをSaaSとして提供している。主要となるETL/ELT機能では、約100種のデータソースに対応し、データを渡す先のデータウェアハウス・データベースも主要なものを網羅している。Webブラウザ上で操作が完結するため、ノーコードで分析データを統合し、専属のエンジニアがいなくともデータウェアハウスやデータレイクを構築できる。

　troccoのもうひとつの特長は、データ基盤を作った後に必要となる、データマネージメントを実現出来ることだ。複雑化したジョブを管理するためのGUIワークフロー、データ・ガバナンスを確保するためのデータカタログなど、基盤の運用をサポートする多様な機能を備えている。

　データソースからデータウェアハウスなどにデータを渡すETLのパイプラインが少なければ、自前で開発しメンテナンスをするのでも問題ないだろう。しかし、利用したいデータが増えれば多くのデータソースとの接続が必要になり、パイプラインはさらに多様化し複雑化する。そうなればAPI接続のための学習コスト、開発・構築コスト、メンテナンスコストが大きくかかる。パイプラインが増えれば、ETLのジョブの依存関係なども複雑化する。

　SaaSのフルマネージドなサービスとして提供されるtroccoは、「それらの課題全てを解決するデザインで作られています。データソースごとのコネクタをあらかじめ用意しているので、ユーザーが構築する必要はありません。メンテナンスも、APIのバージョンアップやスキーマ変更の追従をtroccoが自動で管理するため、最小限です」と小林氏。

　さらに特徴的なのが、シンプルな料金プランだ。ライトプランであれば月額10万円から利用できる。これにより少人数のスタートアップや新規事業を立ち上げる際にも、比較的安価にすぐに分析環境を整えられる。

　primeNumberではtroccoの提供だけでなく、データ基盤をどう作れば良いかのコンサルティング、基盤の設計、構築のサポートも行う。さらに組織でのデータ基盤の普及、活用までサポートできる。

　最後に戸辺氏は、データ基盤の構築はあくまでもHowであり、目的設定が大事だと強調する。そして手段はなるべく簡素にし、目的を達成できるものを選ぶ必要があると言う。小林氏も自前で構築する選択肢もあるが、構築に時間をかけるよりも多少お金はかかってもマネージドのtroccoやSnowflakeを活用し、ユーザーには自身のサービス開発などに注力してほしいと言う。