初めてのHBase

HBaseを使って簡易アクセス解析サービスを作ってみよう

初めてのHBase　第4回

鈴木俊裕[著]

更新日: 2013/09/24
公開日: 2013/07/12

ポスト

　前回はHBaseを使ったアプリケーションのケーススタディとして、簡易ブログサービスを作りました。今回は、HBaseの強い一貫性を利用した簡易アクセス解析サービスを作ってみましょう。

ポスト

サンプルコード

　本稿のサンプルコードはGitHubにもアップしています。併せてご参照ください。

はじめに

　HBaseは強い一貫性を持ち、アトミックなインクリメント処理が可能であることは前回までに説明してきました。今回はその特性を利用して、大規模なアクセスカウンタを作成していきます。

　HBaseを大規模なアクセス解析サービスとして利用しているものの中では、Facebookのページインサイトが有名です。

　今回紹介する簡易アクセス解析サービスは、Facebookのページインサイトと比べると簡易なものですが、HBaseにおけるさまざまなテクニックが含まれていますので、それらを紹介していきたいと思います。

対象読者

HBaseを使ってみたいけど、どう使ったらよいか分からない方
MySQLなどのRDB以外のデータベースを使ってみたい方

要件定義

　それでは、さっそく要件定義をしていきましょう。以下のような機能を持つ簡易アクセス解析サービスを作っていくことにします。

URLごとにアクセスをリアルタイムにカウントできる
アクセスは、アワリー（毎時）、デイリー（毎日）、トータルで取得できる
アクセスを取得する際に、取得する時間の範囲を指定できる
指定したドメインを共通に持つのすべてのアクセスを取得できる

論理設計

　簡易アクセス解析サービスのER図は、以下のようになります。主キーとなるURLを「ドメイン」と「パス」に分けています。

物理設計

　次に物理設計に入っていきます。物理設計は、「クエリ設計」をした後に、HBase上にどうマッピングするかを設計する「スキーマ設計」を行います。

クエリ設計

　まず、クエリから考えていきましょう。要件定義からクエリを考えていくと、以下のようなメソッドを実装すれば良いと思います。

// アクセスをカウントする
void count(String domain, String path, int amount) throws IOException;

// アワリー(毎時)のアクセスを取得する
List<Access> getHourlyCount(String domain, String path, Calendar startHour, Calendar endHour) throws IOException;

// デイリー(毎日)のアクセスを取得する
List<Access> getDailyCount(String domain, String path, Calendar startDay, Calendar endDay) throws IOException;

// トータルのアクセスを取得する
long getTotalCount(String domain, String path) throws IOException;

　getHourlyCount、getDailyCount、getTotalCountはそれぞれアワリー、デイリー、トータルのアクセス数を取得するものです。ただし、クエリパターンとしてはそれらを同時に取ることはない設計になっています。

　また、getHourlyCount、getDailyCount、getTotalCountの引数のpathはnullを許容し、その場合は指定したドメインを共通に持つすべてのアクセス数を取得できるようにします。

　getHourlyCountやgetDailyCountの引数であるstartXXX、endXXXは、取得するアクセスの時間の範囲を表しています。getHourlyCountの引数は年月日時を指定し、getDailyCountは年月日を指定するようにします。

　Accessクラスは以下のようになっています。

　「時間」に関しては、引数同様にgetHourlyCountで取得したものは年月日時まで格納されており、getDailyCountで取得したものは年月日まで格納されます。

public class Access {
  // 時間
  private Date date;

  // ドメイン
  private String domain;
  
  // パス
  private String path;

  // アクセス数
  private long count;

  // ... setterやgetterは省略
}

スキーマ設計

　それでは、実際にどのようにHBaseに格納していくのかを考えていきましょう。共通のドメインを持つすべてのアクセス数を同時に取得できる必要があります。

　そこで、リバースドメインというテクニックを紹介します。このテクニックは、読んで字のごとくドメインを反対にします。

　例えば、"blog.ameba.jp"というドメインを反対にして"jp.ameba.blog"というようにします。このようにすることで、jp.amebaをプレフィックスとしてScanすると、"jp.ameba.blog"や"jp.ameba.pigg"といったような共通のドメインを持つアクセス数を取得できるようになります。

　今回は、このリバースドメインとpathを連結したものをRowKeyとします。クエリ設計から、アワリー、デイリー、トータルのアクセス数は同時に取得されません。なので、ColumnFamilyを別にして、これらを保存することにします。

　これまでに説明した通り、ColumnFamilyごとに別の保存単位になるため、クエリパターンがまったく異なるデータを分けることで、ディスクI/Oの切り分けが可能です。

　アワリー、デイリー、トータルのColumnFamilyをそれぞれ、"h"、"d"、"t"とします。

　これは前回も説明しましたが、ColumnFamilyやColumnは各エントリに保存されるため、短いほうが効率的になるためです。

　Columnには、アワリーの場合は年月日時を、デイリーの場合は年月日を入れます。トータルの場合はColumnを使用しないので空にしてしまいます。

　また、Timestampは前回同様、データを追加・更新するときの時間を使うことにします。これらをまとめると、以下のようなスキーマになります。

RowKey	ColumnFamily	Column	Timestamp	Value
(reverse domain)-path	"h"	yyyyMMddHH	timestamp	counter
(reverse domain)-path	"d"	yyyyMMdd	timestamp	counter
(reverse domain)-path	"t"	""	timestamp	counter

会員登録無料すると、続きをお読みいただけます

新規会員登録無料のご案内

・全ての過去記事が閲覧できます
・会員限定メルマガを受信できます
・翔泳社の本が買える！
500円分のポイントをプレゼント

メールバックナンバー

新規会員登録無料

次のページ
実装

この記事は参考になりましたか？

印刷用を表示

ポスト

初めてのHBase連載記事一覧: HBaseでトランザクションを扱ってみよう

HBaseをSQLで操作してみよう（後編）

HBaseをSQLで操作してみよう（前編）

もっと読む

この記事の著者: 鈴木俊裕（スズキトシヒロ）

株式会社サイバーエージェントアメーバ事業本部 Ameba Technology Laboratory 2008年4月に株式会社サイバーエージェントに新卒で入社。基盤システムの開発・運用に従事する。 2010年4月にHadoop/Hiveを用いたログ解析基盤の開発・運用を担当する。 2011年4月に、ログ解析、レコメンド、検索エンジンなどを開発するAmeba Technology Laboratoryの立ち上げメンバーとなる。 2011年10月からHBaseを用...

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この著者の最近の執筆記事