Sparkの利用
BluemixでのSparkサービスのセットアップ
それでは早速、Bluemix上でSparkの実行環境をセットアップしてみましょう。まずBluemixにログインして、メニューの「カタログ」から「spark」を検索しましょう。「Apache Spark」サービスが絞り込まれるので、クリックします。
Apache Sparkサービスの作成画面へ遷移するので、「選択済みプラン」が「Personal」になっていることを確認して[作成]ボタンをクリックしてください。
Apache Sparkサービスが構築されると、管理画面が表示されます。ここから[NOTEBOOK][NEW NOTEBOOK]とボタンをたどり、「Create Notebook」画面でNotebook名を記入し、言語がPythonになっていることが確認できたら[CREATE NOTEBOOK]ボタンをクリックして新しいNotebookを作成してください。これでSparkの実行準備は完了です。
Notebookの利用
前節でNotebookを作成したあと、fig7のような画面が表示されているはずです。Notebookの利用方法の詳細について、ここでは説明しませんが、BluemixのNotebookは「Jupyter Notebook」というツールをベースにしているので興味のある方はそちらのドキュメントを参照ください。画面で「In [ ]:」と表示されている箇所は「Cell」と呼ばれています。CellにはプログラムコードのほかMarkdown形式のテキストも記述可能で、Cellのフォーマットはメニューバーの[Format]のプルダウンから選択することができます。また、Cellはメニューバーの各ボタンから追加、切り取り、コピーや実行などの操作を行うことができます。画面右の[Palette]からはデータソースやNotebook、環境情報にアクセスすることができます。
それでは簡単なプログラムを実行してみましょう。Cellにlist1とlist2のコードを入力してメニューの実行ボタンをクリックしてください。
sc.version
rdd = sc.parallelize(range(1, 11)) print(rdd.reduce(lambda x, y: x + y))
list1ではSparkContextオブジェクトから演算クラスタのSparkバージョンを取得しています。SparkContextはSparkの演算クラスタとのやりとりを管理するオブジェクトで、Notebookでは「sc」という変数名であらかじめ初期化されており、RDD(Resilient Distributed Datasets、耐障害性分散データセット)の生成などに利用されます。RDDはSparkの演算クラスタ上に分散されたデータをコレクションとして表現するもので、Sparkを扱う上で核となる抽象概念です。Sparkでのすべての操作はRDDの生成、変換およびmap()やreduce()などのメソッド呼び出しとして表現されます。list2はSparkContextオブジェクトのparallelize()メソッドを用いて配列からRDDを生成し、reduce()メソッドで合計を算出しています。ここでのreduce()メソッドの処理は、演算クラスタ上で分散して処理されます。