編輯 |紫。
資料驅動的深度習演算法可以準確地表徵先進的量子化學分子。 但是,它們的輸入必須限制在與訓練資料集相同的量子化學幾何弛豫水平,從而限制了它們的靈活性。 採用替代的具有成本效益的構象生成方法會引入域轉移問題,從而降低準確性。
近日,南韓首爾國立大學的研究人員提出了一種基於深度對比習 習的領域適應方法,稱為區域性原子環境對比學習(LACL)。 LACL 通過比較不同的構象生成方法,學習 習 減輕兩種幾何構象之間的分布差異。
研究發現,LACL形成了乙個與域無關的潛在空間,該潛在空間封裝了原子區域性原子環境的語義。 LACL在實現量子化學精度的同時,避免了幾何弛豫瓶頸,使未來的應用場景成為可能,如逆向分子工程和大規模篩選。 該方法還可以從有機小分子推廣到生物和藥理學分子的長鏈。
該研究題為“Deep Contrastive Learning of Molecular Conformation, for Efficient Property Prediction”,於2024年12月4日發表在《自然計算科學》雜誌上。
*鏈結:基於機器的習優化方法,如強化學習、活性習和深度生成模型,引起了對逆向材料設計和藥物發現的研究興趣。 為了在這些應用中以較低的計算成本快速**未知分子的量子化學,圖神經網路(GNN)已成為一種流行且成功的模型。
為了有效地訓練機器習模型,已經發布了高質量的資料集,例如由134,000個有機小分子組成的QM9資料集。
在高通量篩選等大規模推理場景中,通過DFT準備輸入分子幾何結構不僅收斂耗時、成本高,而且是使用訓練模型的瓶頸。 使用計算效率高的默克分子力場 (MMFF) 優化方法或基於 ML 的構象生成模型計算的構象可以考慮作為替代方案。 然而,在這種情況下,ML模型會受到域漂移的影響,因為它偏離了DFT計算的先前學習的習的訓練資料的分布。
圖:前代方法的分子**方法與LACL方法的比較。 (*
在這項研究中,研究人員引入了一種基於深度對比習的區域性原子環境表示習模型(LACL),專門用於解決分子資料中的域位移問題。 LACL 使用計算高效的幾何弛豫方法捕獲分子資料與 DFT 分子幾何資料之間的相似性。 通過這種方式,LACL充分利用了量子化學資料的潛力,並從頭開始繞過了與幾何鬆弛相關的計算瓶頸。
該研究使用 QM9 和 QMUGS 分子特性**基準來驗證模型的領域適應度。 LACL 基於低保真幾何結構準確**分子特性,降低計算成本和推理時間,同時保持量子化學準確性。
在這裡,研究人員將術語幾何域定義為分子幾何構象的統計分布,包括由某些方法產生的原子間距離或三重態角。 在這項研究中,研究人員將從頭計算方法計算出的構象視為源域,該方法包含現有基準資料中存在的初始知識。 此外,從計算有效的力場或基於機器學習習的構象生成模型中獲得的構象被視為目標域。 主要目標是彌合源域和目標域之間的差距,使模型能夠泛化它從源域中學到的內容,以便在目標域中做出準確的**,儘管域發生了變化。
圖:LACL 模型概述。 (*
為了捕捉兩個幾何域之間的細微差異,通過使用線圖框架修改原子線圖神經網路 (ALIGNN) 模型,對三體相互作用進行了顯式建模。 對比習方法比較的是節點所代表的區域性原子環境的增強,而不是整個分子的增強。 LACL是基於BGRL框架開發的。 考慮到分子線圖的邊緣特徵占用了大量的計算記憶體,這是乙個優勢。 LACL 在整個流水線中進行端到端訓練,同時最大限度地減少 BGRL 損失和目標屬性損失,以防止崩潰。 這種訓練策略提供了一種有效的方法來學習習分子圖表示,以便從分子的不同角度檢視特徵。
LACL 展示了其利用 DFT 幾何域資訊來增強 MMFF 幾何域構象的能力**。 這一改進很有意義,因為它表明,無需額外優化,僅使用mmff級弛豫即可實現量子化學精度(小於1kcalmol 1誤差)。 這些結果為在精度和計算效率之間找到最佳構象生成方法提供了機會。
研究人員還評估了 LACL 對開放和緊湊構象亞型的泛化能力。 即使考慮到測試的分子數量較少,結果也與之前 1,706 個測試分子觀察到的趨勢非常吻合,總體而言,LACL 表現出出色的**效能。 特別值得注意的是,它在開放構象亞型中的穩健效能,這是通過操縱原始資料獲得的。 這個定量實驗表明,尋找域獨立表示的研究方向可以擴充套件到更複雜的系統,如蛋白質和肽。
圖:LACL在開放和緻密構象中的效能研究。 (*
為了研究學習到的區域性原子環境(即節點級嵌入)的習含義,研究人員使用T-SNEs在二維空間中視覺化這些環境之間的關係。 結果表明,區域性原子環境對原子原子序數的依賴性較小,具有相似結構特徵的原子形成團簇,而不是根據分子本身的性質進行分組。
圖:QMUGS20資料集的 LACL 習曲線。 (*
在基態量子化學性質的計算中,LACL方法可以作為一種可行的替代方案,以最大限度地減少複雜分子幾何形狀的額外優化過程。 生成式人工智慧的快速發展導致了分子構象生成模型的出現。 然而,實現與DFT等從頭構象相當的資料分布仍然是乙個巨大的挑戰,這凸顯了領域適應策略的重要性。 這項研究為快速和準確的量子化學性質提供了機會。