データ分析はツールの活用で差がつく
高度な分析はツールを使うほうが速い
基本統計量を求める程度であれば、数行のSQL文を書くだけで求められます。少し工夫すれば、回帰分析程度までならSQLでも実現できます。しかし、もう少し高度な統計処理を行いたい場合もあると思います。主成分分析や判別分析をしようとすると、SQLでは手に負えません。
そうすると、データベースに格納されているデータを出力して、ほかのツールで使うことも考えなければなりません。例えばテキスト形式に出力する機能などはデータベースに備わっているので、それを処理すれば分析できます。
テキスト形式は自由度が高いので、一からプログラムを作っても構いません。しかし、統計処理などでは、ツールを使いこなすことが短時間での成果につながります。上述のExcelの分析ツールも一例で、ヒストグラムの作成も簡単にでき、検定や分散分析も可能です。Excelには統計関数も多数用意されているため、これで十分という現場も多いでしょう。
統計解析専門の言語
Excelでもできないような、もう少し高度な分析をしようとすると、R言語やPythonといった言語を使ってプログラミングすることになります。R言語は統計解析向けに作られているので、強力な関数が多く備わっています。主成分分析をする場合も入力から分析までたった数行のソースコードで実現できるうえ、グラフなどの出力形式も豊富です。
例えばプロ野球選手を、打撃成績をもとに主成分分析するとき、R言語を使うとCSVファイルを入力にして以下のように数行で実現できます(図4)。
- 例)打撃成績の参照元:2016年度セントラルリーグ 個人打撃成績(規定打席以上)
central <- read.csv("セリーグ.csv", row.names=1) pc <- prcomp(central, scale=T) biplot(pc)
ほかに、BIツール(Business Intelligenceツール)を使う場面も大企業を中心に見かけます。多次元の視点から分析し、特定の形式でレポートにまとめるなどの基本的な機能であれば、プログラミングに関する知識がない利用者でも操作できるように設計されています。
ツールを組み合わせる能力を磨く
多くのソフトウェアが登場している現在では、新たにツールを開発する必要がある場面は減り、欲しい機能は探せば見つかることが多くなっています。自分でプログラムを作るよりも、すでに実装されているツールを使うほうが不具合も少なく、時間短縮につながります。
現代の統計には、既存のツールを組み合わせる能力が求められているといえます。UNIXの考え方に近いかもしれませんが、小さな機能を組み合わせて大きなシステムとして作り上げていく考え方は重要です。