「DeepSeekパニック」でも話題になったClickHouseとは
オブザーバビリティのアーキテクチャは「データ収集」「ストレージ」「可視化・アラート」の3層で構成され、SQLを活用することで効率化が進む。ClickHouseはこのうちストレージ領域を担い、コスト削減とパフォーマンス向上を実現する。
ClickHouseは2009年に開発が始まり、2016年にオープンソース化された。列指向の構造により高圧縮・高速解析を実現し、分散処理に対応することで大規模データの管理が容易になる。OLAPデータベースとして、大規模なデータ解析に適している。なお、MySQLやPostgreSQLなどはOLTP(オンライン・トランザクション処理)データベースとされ、トランザクション管理に特化している。

「ClickHouseはトランザクションではなく、データ分析向けのデータベース。トランザクション処理が必要なら従来のデータベースを、大規模なデータ解析にはClickHouseが適している」と松本氏は説明した。法人としてのClickHouse, Inc.は2021年に米国で設立され、Google Cloud、AWS、Azureでマネージドサービスを提供している。
オープンソースの分野での影響力も大きく、2016年のオープンソース化以降、多くのプルリクエストを受け、2023年にはApache Sparkに次ぐ2番手の位置を占めた。ClickHouseの利用方法には、セルフマネージドとマネージドサービスの2つがあり、自社運用が可能なほか、Amazon S3やApache Kafkaとの統合機能を備えたマネージドサービスも提供されている。
ClickHouseはさまざまな分野で活用でき、特に「ログ・イベント・トレース」「リアルタイム分析」「BI」「機械学習・生成AI」の4領域に強みを持つ。リアルタイム分析では、異常検知やWebトラフィック解析などに利用され、BIの分野ではSnowflakeの代替として活用される。さらに、機械学習や生成AIにおいては、大規模な学習データの保存・検索に適している。
松本氏は「DeepSeekが話題になった際、大量のデータを保持するためにClickHouseが使用されていることが明らかになり、その情報が広まったことでClickHouseも注目された」と話した。