マテリアルズ・インフォマティクスは材料科学とデータ科学の融合
材料開発や創薬など、望みの性質を持つ化学物質を創り出す、あるいは探し出すのは根気の要る仕事だ。何度も何度も試行錯誤を繰り返す。たまたま混入した物質が触媒として働き、成功につながったという話もあるが、そういうのはまれだ。
一般的には求める化学物質を人間の知恵と勘から創り出し、望むものに近いか物性を調べることを繰り返す。例えば「より電気伝導率が高い固体が欲しい」としたら、原材料の配合を変えたり、混ぜる金属を周期表で近いものに変えたりして新しい化合物を作り、電気伝導率がどれだけあるか調べる。これを繰り返す。まさに「手探り」だ。
一方「マテリアルズ・インフォマティクス」は逆の流れになる。欲しい物性を持つ材料の候補をデータ科学の手法から導き出す。先の例なら「物質の電気伝導率を予測」あるいは「電気伝導率が高い物質の候補を生成」などシミュレーションしてから、実際に合成して確かめる。機械学習でモデルを作るというデータ科学の手法を化学に応用するものだ。
まだ歴史は浅い。2011年、アメリカのオバマ政権下でゲノム科学をマテリアル(物質)に応用する流れで始動した。日本では2015年、国立研究開発法人物質・材料研究機構で情報統合型物質・材料開発イニシアティブが始動したのがはじまり。近年、豊田中央研究所で太陽電池と熱電変換材料の実用材の発見につながるなど、研究レベルでの成果が出始めてきている。
機械学習分野でも意義が見いだされ、機械学習で有名なカンファレンスとなるNeural Information Processing Systems(NIPS)でもマテリアルズ・インフォマティクスのワークショップが開催されるなど、盛り上がってきている。
物質の化学式をどう記述するか、物質と物性の関係をどう記述するか
トヨタIT開発センター 福島真太朗氏がマテリアルズ・インフォマティクスの概要を解説した。機械学習で処理するには、コンピュータが処理できるような形式で物質を記述し、物質と物性値の関係を記述する方法が必要になる。
まず物質の化学式をどう表現するか。人間は化学式を見れば元素の組成や構造が分かり、化学的な意味が理解できるものの、化学式を単にデジタルに記述してもコンピュータにとっては文字列や図形でしかない。物質の化学式をコンピュータ処理のインプットあるいはアウトプットに使うには、コンピュータが有効に処理できるような形式で記述する必要がある。
そこで使うのがSMILES記法。化学式を1次元の文字列で表現する。基本的には化学式のように元素を並べていく。環状なら小文字にして、繋がっている部分に同じ数字を付与する。(多くの場合)水素(H)は省略する。プロパンなら「CCC」。ベンゼンなら「c1ccccc1」となり、1番目と6番目の炭素(c)が繋がっているため、両方に「1」をつける。二重結合には「=」を用いるなど、いろんなルールが定められている。
次に物質と物性との関係をどう記述するか。コンピュータ処理できるように式「Y=f(X)」のような記述ができれば、「Yが高い値を持つXは何か」として物質を探すことができる。例えば「電気伝導率(Y)が高い物質(X)は何か」といった具合だ。
また、化学式の一部をパーツとして分けて、その特徴を表記できるようにする手法など、いろいろと記述方法が開発されている。記述方法が定まると、物質を分類したり、類似度を比較するなど、コンピュータ処理が可能となっていく。