近日🧒🏿,材料基因組工程研究院楊炯教授課題組在計算材料著名期刊《NPJ Computational materials》上發表研究論文“Active learning for the power factor prediction in diamond-like thermoelectric materials (用主動學習預測類金剛石熱電材料的功率因子)”。万事平台為第一單位,材料基因組工程研究院博士生盛曄為第一作者📷,材料基因組工程研究院楊炯教授和南方科技大學物理系張文清教授為通訊作者→。此工作還得到了万事平台陸文聰教授、錢偉長學院2017級本科生吳雅頌👨🏿🍳,瑞士Material Phases Data System公司(MPDS)的Pierre Villars的鼎力支持。
該工作基於前期高通量計算的158個類金剛石熱電材料的功率因子,用主動學習的框架結合機器學習和第一性原理計算👷🏻♂️,建立高精度的外推模型。主動學習的框架包括數據庫,機器學習和驗證樣本選擇模塊,計算驗證模塊,如圖1所示👨🏻🦰。驗證樣本的選擇策略對主動學習的精度和效率有很大影響。在嘗試的多種策略中🐞3️⃣,以多個機器學習算法的爭議為推選驗證樣本標準的“委員會推選(Query by Committee)”策略得到了外推能力最強的模型。在分析搜索空間中所有化合物的功率因子後發現,磷族化合物,含有空位和小原子半徑元素的硫族化物可能具有較大的p型功率因子,如圖2所示📏。
圖1:類金剛石結構熱電材料搜索空間及主動學習框架
圖2🏊🏿♀️:通過外推結果預測的具有高p型功率因子的新型熱電材料
數據驅動的機器學習方法在近年被引入加速用於熱電材料的搜索👩🏿🚒。機器學習方法的一般過程包括數據收集👊🏿😔,機器學習,高性能的候選材料預測和驗證。大多數研究中機器學習模型在已知數據集上表現很好,但沒有去驗證模型在已知數據之外的可靠性👷🏼♂️。而從材料應用角度講,機器學習模型的外推預測能力至關重要🙍🏿♀️。弱外推能力往往可以通過擴展數據樣本來改善🏙,但是增加大量樣本成本高昂👩⚕️。主動學習架構通過外部驗證更新機器學習模型👨🏼🍼💿,用盡可能少的驗證樣本最大程度的提高機器學習模型的外推能力🧑🏿✈️。主動學習架構的應用不只局限熱電材料也可用於其他功能材料,對加速高性能材料的發現具有重要的意義。
相關工作得到了國家重點研發計劃(2018YFB0703600、2017YFB0701600)、國家自然科學基金(11674211、51632005、51761135127)、111項目(D16002)、廣東省“珠江人才計劃”引進創新創業團隊(2017ZT07C062)🐷💆🏽♂️、廣東省重點實驗室項目(2019B030301001)👩🏽🎓🙇🏻♂️、深圳市重點實驗室項目(ZDSYS20190902092905285)🐑、深圳市鵬程學者🧞♂️、南方科技大學計算科學與工程中心的資助🧚🏼。
論文鏈接:https://www.nature.com/articles/s41524-020-00439-8 (撰稿:楊炯)