結果
筆者のCore2 6700、メモリ2GBのマシンと、TOP500の第1位BlueGene/Lを比べてみましょう(後述のパラメータ調整をした結果です)。見るべき部分は「hpccout.txt」の最後にまとまっています。
HPL_Tflops | MPIRandomAccess_GUPs | MPIFFT_Gflops | StarSTREAM_Triad | |
BlueGene/L | 259 | 35.5 | 2870 | 160 |
GCC+ATLAS | 8.56E-3 | 2.69E-3 | 6.56E-1 | 2.08081 |
GCC+GotoBLAS | 9.09E-3 | 2.69E-3 | 6.56E-1 | 2.17258 |
ICC+MKL | 1.24E-2 | 2.72E-3 | 6.63E-1 | 2.1144 |
さすが世界最速のスパコンだけあります。実に爽快な負けっぷりです(Core2はチューニングによって、もう少し性能が出るはずですが、ここでは追求しません)。
パフォーマンス・チューニング
ベンチマークでよい性能を発揮するためには、「hpccinf.txt」で与えるパラメータをチューニングしなければなりません。パフォーマンス・チューニングについてここで詳しく述べることはできないので、HPCCのベンチマークの一つ、HPLの最も重要なパラメータであるN(行列サイズ)とNB(ブロックサイズ)だけを調整してみます。
基本的にはNが大きければ性能が上がります。しかし、主記憶に行列が入り切らなくなってはいけません。Nをどの程度まで大きくできるかは、「hpccinf.txt」に次のように記述することで調べられます。
4 # of problems sizes (N) 1000 3000 6000 10000 Ns
ます調べたい値の数を書き、具体的な値を次の行に列挙します。ここではN=1000,3000,6000,10000の4つの場合について調べたいので、1行目には4と書かれています。これが「hpccinf.txt」の書き方の基本です。
NBを適当に決めてNを動かした結果を図1に示します。Nが大きくなると性能が上がり、主記憶がいっぱいになるところでがた落ちします。
NBの値によっても性能が変わります。ATLASの場合は特に大きく変化するので、よく調べなければなりません。Nを筆者のマシンで性能が最大に近づく10000に固定し、NBを動かした結果を図2に示します。
おわりに
スパコンの標準的なベンチマークであるHPCCをPC上で実行する方法と、実際に動作させた結果を紹介しました。はじめに述べたように、ベンチマークは実行したいタスクに似たもので行わなければ意味がないため、この結果でPC同士を比較することには、あまり意味がありません。
意味がないとは言っても、高価なスパコンと一般のPCを同じ土俵で比較するのは、知的に面白いものです。行列などの専用ライブラリの導入方法が分かるという付加的な意義もあります。必要なライブラリの大部分はバイナリで配布されており、パッケージ管理ソフトウェアなどを使って容易に導入できるので、気軽に試してもらいたいと思います。