イベントレポート（AD）

達人のワザを、達人に学ぼう～「達人に学ぶハイパフォーマンスSQL実践講座」体験レポート

2016/06/23 14:00

ポスト

　CodeZine Academy（コードジン・アカデミー）は、開発者のための実装系Webマガジン「CodeZine（コードジン）」編集部が企画・運営する“開発に役立つ実践系セミナー”です。今回初となるSQL関連セミナーは、RDBMS界では知らなきゃモグリだといわれる（？）達人ミックさんによる「ハイパフォーマンスSQL実践講座」です。そのセミナーの模様を本レポートでお伝えします。

ポスト

　こんな方にオススメ：SQL／RDBの使用経験が1年以上のプログラマ／SE。

ひととおりのクエリは書いたり読んだりできるけれども、結合・サブクエリはコピペがメイン
パフォーマンスが悪いとお手上げ
データ分析にWindow関数を使いたくてマニュアルを読んだけど、ちんぷんかんぷん

　このレベルの人が受講すると、すごく役立つと思います。

　一人一台のノートパソコンにOracle Databaseの実行環境が用意され、演習も実際のデータを用いてできるため、SQL*Plusの簡単な操作さえ行えれば、実際に手を動かして、確認しながらセミナーを聞き進めていくことができます。

午前の部：SQLで自在にデータ操作を行う

　まずは実習で使う環境の確認です。私自身は通常はMySQLを使っており、Oracle DBのCLIであるSQL*Plusをまじめに使っていたのは、もう20年ほど前なのですが（笑）、すでに手元のノートパソコンでOracle DBインスタンスが起動済み、動作の確認もほぼコピペで行えるので、特に行きづまることなく準備OKでした。

　さて、午前の部では、SQLで自在にデータ操作を行う、ということで、JavaやC#など、いわゆる「手続き型言語」では学習の初期に教わる、条件分岐（IF文、CASE文）とループ（FOR文、WHILE文）についてです。これらは手続き型では不可欠なものですが、SQLを勉強する際には「教わりません」。しかし、この2つを使いこなせるようになると、SQLプログラミングの幅が大きく広がるということで。最初は「条件分岐に当たるもの」の解説です。

条件分岐：CASE式

　SQL標準の初期（SQL-92）で定められたCASE式は、今やすべてのRDBMSで利用できます。文ではなく式というのがポイントで、クエリの「式」が書けるところには、どこでも書けます。次のような「一番簡単なCASE式のサンプル」からはじめ、徐々に現場で役立つところまで演習を重ねていきます。

SELECT CASE WHEN 1 = 1 
       THEN '1=1です' 
       ELSE NULL END AS case_col
  FROM DUAL;

ループ：相関サブクエリに替わるもの？

　ループといえば、私などは真っ先に「相関サブクエリ」を思い出すのですが（注1）、モダンなRDBMSではWindow関数でループを扱えるとのこと。Window関数といえば「順位に使えるRANKだけを知っていて、その他はぼんやりとしか分からない。まぁMySQLではそもそも使えないし、いいか」というくらいの温度感だったのですが、ミックさんの「ウィンドウというのは範囲という意味で、GROUP BYのグループに似ているが、集約しないので、GROUP BYのカットの機能だけを残したもの」という説明で、がぜん興味がわいてきました。

　実際、その言葉を元に演習を重ねると、これまでぼんやりとしていたWindow関数の輪郭が徐々にはっきりしてきた気がしましたし、新機能をいろいろ理由付けして未着手にする自分を少し反省しました。

注1

　そもそもSQLでループさせる方法がわからずに、アプリケーション側でループを記述してその中でSQLを実行する人もいますが。

午後の部：SQLの効率的な書き方

　データベースの性能問題を解決するために「実行計画」を知り、それを用いてどのようにクエリを改善できるのか、を考えていく必要があります。実行計画とは、RDBMSが与えられたクエリをどのように実行するか立てる計画で、通常複数の計画が立てられるものです。そのうち、RDBMS側がオプティマイザでどの実行計画がよいかを決定するのですが、RDBMSによってはオプティマイザにヒントを与えて、どの実行計画を利用するかを調整できる場合もあります。

　まずは実行計画をどのように見るか、というところがファーストステップとなります。

実行計画とその見方

　Oracle DBについて、SQL*Plusから以下のように設定すると、実行計画と共に実際にSQLを実行し、それにかかった時間が測定できます。

set autot traceonly
set timing on
set time on

　本番環境では気軽に重いクエリの実行はできないので、set autot traceonlyの後にexpをつけて、SQLを実行しない（いわゆるdry run）も可能です。しかし、ここでは一人一台の実行環境がありますし、すでに実行計画表示用のデータをもったテーブルもありますので、気にせず行いましょう。そして実行計画の見方とかかる時間を確認したら、結合（Join）について、実際にどのように改善できるかどうかトライしてみます。

結合のアルゴリズムと実行計画

　結合（Join）には主な結合アルゴリズムとしてNL（NESTED LOOP）、HASH、SORT MERGEがありますが、今回はNLとHASHについて、その結合アルゴリズム自体の説明と、そのアルゴリズムだからこそ「こうすればはやくなる・遅くなる」の説明が演習とともに示されます。ここでも実際にデータが用意されている、ということが役立ち、例えば前提条件をこう変えると、どのアルゴリズムが利用され、どちらがはやいか、というのを、単なる机上の問いと説明、答えに終わらず、実際に実行して確認や答え合わせができる、というのが、達成感があってよかったです。