データ分析に関する記事とニュース
-
2019/06/05
データエンジニアの必須スキルとそれをサポートするGCPを一望する『スケーラブルデータサイエンス』
分業化が進むことで個別分野のエキスパートは増え、各問題に対する即応度は高まった感はあるものの、膨大なデータを背景にした意思決定のさらなる高速化が求められる現代においては、独立性の高い分業形態では追いつかないケースが増えています。翔泳社から6月5日に発売した『スケーラブルデータサイエンス』は、そのようなニーズに応えられるデータエンジニアとして、GCPを援用することで自身をスケールアップする方法を解説しています。
-
2019/04/15
リアルタイムなストリームデータを活用――GCPでデータ基盤を内製し、マイクロモーメントに対応する
スキマ時間で情報を収集できるスマートフォンの普及に伴い、Web上でリアルタイムに接客するニーズは高まる一方です。本連載ではその流れに対応するべく、リアルタイムなストリームデータ活用を実現する基盤を内製した事例を紹介します。第1回の本稿では構築した基盤に用いられた技術やアーキテクチャについて解説します。
-
2018/12/12
定番のPython機械学習ライブラリ「scikit-learn」ではじめての学習モデル作成から改善まで
本連載ではプログラミングの基本は理解しているが、より実践的なデータ解析に取り組みたい方を対象に、スクリプト言語によるデータ解析の実践を解説します。スクリプト言語の中でも特にデータ解析環境が整っているPythonをとりあげ、対話型解析ツールやライブラリによるデータ解析の実行・可視化の方法をを解説します。第4回となる本稿ではPythonによる機械学習を解説します。まず機械学習の概観について確認し、Jupyter Notebookとライブラリscikit-learn使った機械学習の手順を解説します。...
-
2018/11/30
国内最大規模のデータで「社会の課題」を解決できるよろこび――現役データサイエンティストが語る“仕事の魅力”
データの利活用ニーズの急増とともに、日本でも注目度が高まっている「データサイエンティスト」。エンジニアとの接点も増える中、実際にどのような仕事をしているのか、気になる方も多いだろう。そこで、国内最大規模のデータと最先端のデータ処理・分析技術をもつデータサイエンティスト集団「ARISE analytics」で、実際に活躍中の2人に登場いただき、その仕事の内容ややりがい、スキル習得、職場環境などについてうかがった。
-
2018/11/15
Pythonではじめての統計~基本情報の確認から検定まで
本稿ではプログラミングの基本は理解しているがより実践的なデータ解析に取り組みたい方を対象に、スクリプト言語によるデータ解析の実践を解説します。スクリプト言語の中でも特にデータ解析に役立つライブラリや環境が整っているPythonをとりあげ、対話型解析ツールやライブラリについて導入から解析の実行・可視化までを解説します。本稿ではPythonによる統計データ解析を解説します。まず統計の概観について確認し、Jupyter Notebookを使った基本統計量の確認・相関・検定の手順を解説します。
-
2018/09/28
データ分析エンジニアの役割とは? Pythonと機械学習はどう役立つ?
データ分析に関心のある方にとって、Pythonは気になる言語の一つ。しかし、実際にデータ分析をしようとしたとき、何から学べばいいのでしょうか。翔泳社の『Pythonによるあたらしいデータ分析の教科書』から、Pythonを使ってデータ分析の手法を学んでいくための基礎知識を紹介します。
-
2018/09/20
データ分析エンジニアの基礎をひととおり 『あたらしいPythonによるデータ分析の教科書』発売
今、業務改善や広告の価値評価、天気予報など、いろいろな領域でデータ分析が活用されています。そこでは主にビッグデータを機械学習で処理し、傾向や有用な情報を抽出して利用しているのです。翔泳社ではデータ分析の基礎を学べる『Pythonによるあたらしいデータ分析の教科書』を9月19日に発売しました。まず技術や知識の土台を作りたいからにお勧めです。
-
2018/07/04
研究者とエンジニアが集い、機械学習工学という新しい工学の体系化を目指す~「機械学習工学研究会キックオフシンポジウム」レポート
2018年5月17日、日本ソフトウェア科学会 機械学習工学研究会 キックオフシンポジウムが開催された。機械学習が普及するなか、実装や運用のシステムに固有の難しさがあり、これまでのソフトウェア工学が通用しない部分があるとして、機械学習工学研究会が発足した。研究者だけではなくSIerも混じり、機械学習とシステム開発の関する現状を共有したキックオフとなった。
-
2018/07/02
本格的なPythonデータ解析環境を手軽に! 「Jupyter Notebook」の導入から可視化まで
本連載では、プログラミングの基本は理解していて、より実践的なデータ解析に取り組みたい方を対象に、スクリプト言語によるデータ解析の実践を解説します。スクリプト言語のなかでも特にデータ解析に役立つライブラリや環境が整っているPythonを取り上げ、対話型解析ツールやライブラリについて導入から解析の実行・可視化までを解説します。本稿ではブラウザで動作するOSSの対話型データ解析ツール「Jupyter Notebook」を紹介します。導入から実際にPythonとライブラリを用いたデータ解析の実行、可視...
-
2018/06/05
「データ分析」が破壊的な力を持った時代にSASが提供できる価値とは【SAS FORUM JAPAN 2018】
SAS Institute Japanは5月18日、東京都港区のグランドハイアット東京において「SAS FORUM JAPAN 2018」を開催した。基調講演において、SAS Institute Inc.のエグゼクティブ・バイスプレジデント兼COO兼CTOであるオリバー・シャーベンバーガー氏は「アナリティクス」(分析)が現在、社会や経済を大きく変革する破壊的なテクノロジーとなっていること。そして、これまで40年以上にわたってアナリティクスの領域をリードしてきたSASこそが、アナリティクスから価...
-
2018/05/02
SQLクライアントはこれひとつでOK! あらゆるDBMSで使える「SQL Workbench/J」をデータ解析で活用しよう
本シリーズではビジネスデータ解析でデータベースから情報を取得して活用する必要がある方を対象に、ビジネスデータ解析でよく使われる実践的なSQL例など、分析向けの活用を解説します。本稿では、さまざまなデータベースに接続する必要があるデータ解析の際に役立つ、フリーのSQLクライアントツール「SQL Workbench/J」の活用方法を解説します。導入・データベース活用手順を解説しデータ解析の際に役立つ機能を紹介します。
-
2018/02/23
ユーザーによるアプリケーション機能利用分析ですぐに使えるSQL
本シリーズではビジネスデータ解析でデータベースから情報を取得して活用する必要がある方を対象に、ビジネスデータ解析でよく使われる実践的なSQL例など、分析向けの活用方法を解説します。前回はSQLによるユーザー属性・行動分析のポイントを解説しました。今回はSQLによるアプリケーションでのユーザーアクション分析に挑戦します。ユーザー行動ログとひとつのSQLクエリ文でユーザーアクション分析ができることを確認します。
-
2018/01/18
ユーザーの年齢・性別と購買履歴を活用する「属性」×「行動」分析のSQL
本シリーズではビジネスデータ解析でデータベースから情報を取得して活用する必要がある方を対象に、ビジネスデータ解析でよく使われる実践的なSQL例など、分析向けの活用方法を解説します。前回はオープンソースBIツール「Re:dash」について解説しました。今回はSQLによるユーザー属性・行動分析に挑戦します。ユーザー情報(年齢・性別)と購買履歴データを活用し、SQL分析のポイントを確認していきます。
-
2017/10/18
“あなたの会社をデータ駆動にする”オープンソースBIツール「Re:dash」でSQL分析結果を可視化しよう
本シリーズではビジネスデータ解析でデータベースから情報を取得して活用する必要がある方を対象に、ビジネスデータ解析でよく使われる実践的なSQL例など、分析向けの活用方法を解説します。前回はRFM分析を用いたSQLのデータ解析に挑戦しました。今回はSQL分析結果を分かりやすく可視化/共有する、WebベースのオープンソースBIツール「Re:dash」の導入・活用方法を解説します。
-
2017/08/04
SQLでRFM分析に挑戦する
本連載ではビジネスデータ解析でデータベースから情報を取得して活用する必要がある方を対象に、ビジネスデータ解析でよく使われる実践的なSQL例を示し、解説します。前回はバスケット分析と時系列分析について取り上げました。今回は顧客分析の代表的な手法の一つであるRFM分析を題材に、具体的な実行例でSQLでのデータ解析に挑戦します。
-
2017/07/19
SQLでバスケット分析と時系列分析を用いたデータ解析に挑戦する
本連載ではビジネスデータ解析でデータベースから情報を取得して活用する必要がある方を対象に、デシル分析や時系列分析などビジネスデータ解析でよく使われる実践的なSQL例を示し、解説します。前回はクロス集計とデシル分析について取り上げました。今回扱うテーマは、バスケット分析と時系列分析です。
-
2017/07/14
Ruby-Pythonブリッジライブラリ「PyCall」を使ってRubyでデータ分析をしよう!
現在、Rubyはデータサイエンス分野では使いにくいプログラミング言語です。その主な理由として、実用的に使える環境が存在しないことが挙げられます。この状況を変えるには、データサイエンスの全工程をRubyで実施できる環境を整備しなければなりません。本稿ではデータサイエンスでよく利用されるPythonのツール群をRubyから使用するための仕組みである「PyCall」を紹介します。
-
2017/05/24
SQLで基本のデータ解析に挑戦する
本連載ではビジネスデータ解析でデータベースから情報を取得して活用する必要がある方を対象に、「クロス集計」「デシル分析」「バスケット分析」「時系列分析」といったビジネスデータ解析でよく使われる実践的なSQL例を示し、解説します。今回は、その中からクロス集計とデシル分析を取り上げます。
-
2017/02/09
Apache Hadoop/Sparkの実技試験でビッグデータを扱うスキルを証明できるClouderaの認定資格
Apache Hadoop(以下、Hadoop)は誕生から10年を越え、日本でもいよいよ本格的な実用化の段階へと進みつつある。これはHadoopのスキルを持つ優位性も増しつつあることを意味する。本稿では、Hadoopの商用ベンダとしていち早く設立されたClouderaの日本法人から、Cloudera University Japan トレーニングマネージャー兼シニアインストラクター 川崎達夫氏にインタビューを行い、Hadoopの現状や、同社が提供しているHadoopのトレーニング、認定資格につ...
-
2017/02/08
試して納得! IBM Watson Data Platform 〜 データサイエンティストからアプリ開発者までのコラボを実現し、価値創出サイクルを加速するデータ分析基盤
「ビッグデータ」は黎明期を過ぎ、本格的な発展期を迎えました。取り組みも「収集したビッグデータを可視化して課題の抽出・解決を図る」という単純なものから「分析結果をもとに未来を予測し、ビジネスの最適化、新しい価値の創出につなげる」といった、より複雑なものへと変化しつつあります。こうした変化を見極めたIBMは、データから価値を引き出し、企業の変革をリードするデータ分析基盤として「IBM Watson Data Platform」を発表しました。本稿では、その概要やメリットとともに、データサイエンティ...