改善・改良は日々行う
PFNの分散学習クラスタは、これらの問題について日々改善を行っている。例えば、前述のベンチマークテストや大規模なリソースを使ったグランドチャレンジなどに対して、もっとカジュアルに対応したいと大村氏はいう。
現在MesosとKubernetesの2つのスケジューラーを統合する計画もある。計画ではKubernetesへの統合を考えているそうで、Kubeflowコミュニティではchainer operatorプロジェクトを進めている。2つのInfiniBandは現在アイソレートされていない。帯域をコンテナごとに割り当てるようなQoS制御を実装したい要望もある。
また、効率・柔軟・公平なスケジューリングのため、機械学習や強化学習を利用してスケジューリングさせる方法も考えている。CPUメモリ、GPU、通信チャネルの距離など、ハードウェアトポロジを考慮したスケジューリングも機械学習・強化学習スケジューリングの対象だとした。
PFNの分散学習クラスタはオンプレミス環境のGPUを利用しているが、それでも足りなくなったとき、追加の計算リソースとしてパブリッククラウドの利用も積極的に考えたいとする。そして、これらの展開を考えるとき、忘れてはならないのは、OSSへの貢献だ。すでに多数のOSSプロダクツを利用しているPFNのクラスタ環境だが、機械学習やAIの共通の課題克服のため、成果の共有、OSSへのコミットを加速させたいとした。
人間のクリエイティビティを全開に
最後に大村氏は、同じPFNの研究者である福田氏の言葉を借りて、現状のハイパフォーマンスコンピューティングの現状を「並列計算と分散システム(クラウド)という2つの技術の合流点に我々は立っている」と説明する。機械学習、深層学習の最先端の領域は、まさにクラスタリングとクラウドコンピューティングの2つの技術によって支えられている。
ニューラルネットが重畳する深層学習では、双方の技術の融合が求められている。過去に並列処理とハイパフォーマンスコンピューティングの学術分野は、ハードウェアのクラスタかネットワークを利用した分散型かで議論されたことがある。機械学習という領域では、その2つが再び融合しようとしていると考えると重みのある言葉だ。
大村氏は続けて、最終的なボトルネックはおそらく人間の創造性だとする。「最強の計算資源で人間のクリエイティビティを全開にしたい」と述べて講演を終えた。