SHOEISHA iD

※旧SEメンバーシップ会員の方は、同じ登録情報(メールアドレス&パスワード)でログインいただけます

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

ビジネスデータ解析のためのSQL入門

SQLでRFM分析に挑戦する

ビジネスデータ解析のためのSQL入門 第3回

  • X ポスト
  • このエントリーをはてなブックマークに追加

SQLサンプルと解説[1]

 RFM分析のSQLの例を示し解説をしていきます。

顧客ごとのRFMの集計とランク付け

 まず、顧客ごとにRFMそれぞれの指標値を集計し、ランク1〜3を割り振ります。

 欲しい結果は以下です。

 user_id  | recency | frequency | monetary | r_rank | f_rank | m_rank
----------+---------+-----------+----------+--------+--------+--------
 UID0002  |      11 |         1 |      980 |      1 |      1 |      1
 UID0001  |       1 |        20 |     5500 |      2 |      3 |      3
 UID0003  |       0 |         3 |     2010 |      3 |      1 |      2
 UID0004  |       4 |         1 |      250 |      2 |      1 |      1

 顧客ごとの集計のSQLはリスト3の通りになります。

リスト3 RFM分析SQL―顧客ごとの集計(rfm-rank-1.sql)
select
    user_id,
    recency,
    frequency,
    monetary,
    case /*(2)*/
        when recency < 1 then 3
        when recency < 7 then 2
        else 1
    end as r_rank,
    case
        when frequency >= 10 then 3
        when frequency >= 5 then 2
        when frequency >= 1 then 1
    end as f_rank,
    case
        when monetary >= 5000 then 3
        when monetary >= 1000 then 2
        else 1
    end as m_rank
from ( /*(1)*/
    select
        user_id,
        current_date - max(cast(date as date)) as recency, /*(1)-(b)*/
        count(date) as frequency, /*(1)-(c)*/
        sum(price) as monetary /*(1)-(d)*/
    from
        sales_history
    group by
        user_id /*(1)-(a)*/
    ) as user_rfm
;

 内側のサブクエリの内容から順に確認していきます。

(1)顧客ごとのRFM値の算出

  • (a)「顧客ごと」で集計するため、group by句でuser_idを指定しグルーピングします。
  • (b)直近購買日recencyとして、顧客の最も新しい購買日と現在の日付の差分を算出します。cast(date as date)は文字列型のdate(左辺)をdate型に型変換(キャスト)します。今回のサンプルでは現在の日付を「2017/06/14」として算出しています。
  • (c)頻度frequencyを、count関数で顧客の購買の回数を集計することで算出します。
  • (d)合計金額monetaryを、sum関数で顧客の購買金額の和を集計することで算出します。

 このサブクエリによって得られる途中結果は、以下の通りです。

 user_id  | recency | frequency | monetary
----------+---------+-----------+----------
 UID0002  |      11 |         1 |      980
 UID0001  |       1 |        20 |     5500
 UID0003  |       0 |         3 |     2010
 UID0004  |       4 |         1 |      250

(2)ランクの算出

 算出したrecency、frequency、monetaryの値を元に、CASE式を使ってRFMの指標ごとにランク付けしていきます。

 CASE式の構文は以下の通りです。構文は2種類あり、WHENの後に値のみ記述する構文(単純CASE式)と、「<項目> = <値1> 」のように比較演算が利用可能な構文(検索CASE式)があります。上のリスト3では検索CASE式の構文を利用しています。

単純CASE式の構文
 CASE  <項目>
   WHEN <値1> THEN  <値4>
   WHEN <値2> THEN  <値5>
   ELSE <値3>
 END
検索CASE式の構文(比較演算子は"="のほか不等号などが使用可能)
CASE WHEN <項目> = <値1>  THEN  <値4>
      WHEN <項目> = <値2>  THEN  <値5>
 ELSE  <値3>  END

 「when recency < 1 then 3」でrecencyが1未満ではランクを3と算出しています。ここでは「1」がランクのしきい値です。特定のランクに偏る場合はこのしきい値を調整しましょう。

 以上で顧客ごとのRFM指標ごとの集計とランク付けができました。

次のページ
SQLサンプルと解説[2]

この記事は参考になりましたか?

  • X ポスト
  • このエントリーをはてなブックマークに追加
ビジネスデータ解析のためのSQL入門連載記事一覧

もっと読む

この記事の著者

WINGSプロジェクト 西 潤史郎(ニシ ジュンシロウ)

WINGSプロジェクトについて>有限会社 WINGSプロジェクトが運営する、テクニカル執筆コミュニティ(代表 山田祥寛)。主にWeb開発分野の書籍/記事執筆、翻訳、講演等を幅広く手がける。2018年11月時点での登録メンバは55名で、現在も執筆メンバを募集中。興味のある方は、どしどし応募頂きたい。著書記事多数。 RSS Twitter: @yyamada(公式)、@yyamada/wings(メンバーリスト) Facebook<個人紹介>フリーランスとしてデータ解析エンジニアとして主にビッグデータ関連の仕事をしています。TableauなどBIやビッグデータ処理などビジネスデータ解析環境の構築・運用、また解析系のアプリケーション開発やGoogleアナリティクス活用支援などを行っています。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

山田 祥寛(ヤマダ ヨシヒロ)

静岡県榛原町生まれ。一橋大学経済学部卒業後、NECにてシステム企画業務に携わるが、2003年4月に念願かなってフリーライターに転身。Microsoft MVP for Visual Studio and Development Technologies。執筆コミュニティ「WINGSプロジェクト」代表。主な著書に「独習シリーズ(Java・C#・Python・PHP・Ruby・JSP&サーブレットなど)」「速習シリーズ(ASP.NET Core・Vue.js・React・TypeScript・ECMAScript、Laravelなど)」「改訂3版JavaScript本格入門」「これからはじめるReact実践入門」「はじめてのAndroidアプリ開発 Kotlin編 」他、著書多数

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この記事は参考になりましたか?

この記事をシェア

  • X ポスト
  • このエントリーをはてなブックマークに追加
CodeZine(コードジン)
https://codezine.jp/article/detail/10346 2017/08/04 14:00

おすすめ

アクセスランキング

アクセスランキング

イベント

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

新規会員登録無料のご案内

  • ・全ての過去記事が閲覧できます
  • ・会員限定メルマガを受信できます

メールバックナンバー

アクセスランキング

アクセスランキング