大量データの書き込みに最適な『HBase』。RDBとの違いとは
「AmebaにおけるHBaseの導入事例を紹介する前に、まずはHBaseについて簡単に説明したい」──。冒頭でこう切り出したのはサイバーエージェントでHadoopを使ったログ解析基盤およびHBaseをつかった基盤システムの開発・運用を手掛けている鈴木氏である。続けて同氏は「HBaseを使ったことがある方」と参加者に問いかけた。すると手を挙げたのは2~3割。「意外に多い」と少し驚いた表情をみせ、鈴木氏はHBaseの解説を始めた。
HBaseとはNoSQLのひとつで、Google基盤ソフトウェアである『Bigtable』のオープンソースクローンである。
「一言で表すと分散ストレージ。その特徴は高可用性、高パフォーマンス。そしてデータモデルは多次元ソートマップであること」と鈴木氏。またHBaseの使いどころとして最適なのは、『大量のデータがあるとき』だという。HBaseのAuto Shardingという機能により、「データが自動的に分割され、負荷分散される。これにより、大量データに対する運用コストの削減が可能になる」(鈴木氏)という。
鈴木氏はHBaseのアーキテクチャについても次のように説明する。
「HBaseのアーキテクチャはマスタ型。HMasterとHRegionServerという2種類のプロセスがあり、マスタであるHMasterがHRegionServerの管理やコーディネーションをする」
クライアント直接やり取りするのはHRegionServerである。「HMasterに負荷が集中することがないため、HMasterがボトルネックにならない」(鈴木氏)という。そしてデータは分散ファイルシステムであるHDFS(Hadoop Distributed File System)に保存される。つまりHBaseの信頼性は、HDFSに依存しているというわけだ。
次に鈴木氏が説明したのはHBaseのデータモデルである。HBaseはテーブルのカラムにバリュー(値)を格納する、RowKey(RDBの主キー)や辞書順でソートされている点はRDBと似ているが、少し異なるところがある、と言う。それは「カラムはカラムファミリーによってグルーピングされていること、値は複数バージョン持てるところだ」と鈴木氏。そのほかにも、データ分割はRegion単位で分割されること、Rowの更新処理はアトミックに行われること、データファイル数はカラムファミリー×リージョン数となること(列指向データフォーマット)、カラムファミリーはI/Oを分割したいときに使われることも異なる点だ。またHBaseの特徴として鈴木氏は「カラムファミリーはあらかじめ定義しておくこと、カラムは後から追加できること」と挙げる。
HBaseの設計の考え方もRDBとは異なる。HBaseではRowKeyの範囲でRegionに分割されて負荷分散される。そのため、Rowkeyの設計次第で負荷やデータ量が偏ることもあるという。またRowkeyで辞書順にソートされているHBaseでは、連続したRowはScanでまとめてとることができる。したがって「一度に取りたいデータは連続して 置いておくこと」も設計する上では重要なポイントだ。そのほかにもRowのカラムはいくらでも増やすことができる、更新処理がアトミック、Joinがないので非正規化がほぼ前提となる、クエリに対してスキーマが決まる、などという点を考慮して設計をしなければならない、と指摘。「さらなる詳細を知りたい場合は、CodeZineの連載『初めてのHBase』を読んでほしい」(鈴木氏)。