機器學習加速材料設計生成平台GT4SD推動科學發現

Mondo 科技 更新 2024-02-07

隨著各個科學領域資料可用性的增加,生成模型在加速科學發現方面具有巨大潛力。 生成模型利用從資料集中學習的有效表示來加速新假設的發展,這些假設有可能對材料發現產生廣泛影響。 在這篇簡短的通訊中,IBM 歐洲研究院的 Matteo Manica 等人介紹了他們最近提出的 Generative Toolkit for Scientific Discovery (GT4SD)。

這個可擴充套件的開源庫使科學家、開發人員和研究人員能夠訓練和使用最先進的生成模型,以加速材料設計並推動科學發現。

背景:

科學方法在很大程度上促進了上個世紀技術的快速發展。 然而,在一些重要領域,例如材料或藥物的發現,生產力一直在急劇下降。 如今,發現新材料可能需要近十年的時間,成本高達 1000 萬至 1 億美元。 天然產物及其衍生物的儲存庫已經基本枯竭,自下而上的假設表明,在廣闊的搜尋空間中識別和選擇新的和有用的候選物是極具挑戰性的,例如,類藥物分子的化學空間估計可以包含1033個結構。

為了克服這個問題,近年來,基於機器學習的生成模型,如變分自動編碼器(VAE)、生成對抗網路(GAN),已經成為一種實用的方法,使用不同的分子結構表示(如基於文字的微笑和自拍)或基於圖形的表示來設計和發現具有所需屬性的分子。 與列舉或網格搜尋相比,生成模型可以更有效地探索從標準定義資料中學習的廣闊搜尋空間,並已應用於糖和染料分子、靶標特異性配體、抗癌靶向分子、抗菌肽和半導體材料的設計。

與此同時,越來越多的研究人員正在努力開發軟體包來評估機器學習模型及其在材料科學中的應用。 在效能方面,已經發布了 CGCNN、Pymatgen、Mattminer、Matbench Automatminer 等材料屬性的模型、資料探勘工具包和基準測試軟體包。

在生成模型方面,鱷梨醬和MOSES等通用框架為特定領域的生成模型軟體鋪平了道路,該軟體在藥物發現領域也越來越受歡迎。 最近,研究人員提出了一些新方法。 生成流網路(Generative Stream Network,GFN)是一種生成模型,它利用強化學習的思想來提高樣本多樣性,為圖的結構化資料提供了一種非迭代取樣機制。 GFN特別適合於分子生成領域中樣品多樣性難以保證的問題。

擴散模型 (DM) 是生成模型,用於學習複雜的高維分布和跨多個維度的去噪資料。 DM在解決無條件和有條件視覺任務中的樣本質量和多樣性方面取得了令人矚目的成果。 條件生成模型已應用於分子構象表示和蛋白質生成與對接領域。

在這種情況下,對軟體庫和工具包的需求不斷增長,因為它們使使用生成模型變得更加容易。 考慮到模型規模的不斷增長和訓練模型所需的大量計算資源,對這種低成本、簡單的軟體包開發的需求變得更加迫切。 此外,這種趨勢在資金充足的機構中的一小群特權研究人員與科學界的其他成員之間造成了不平衡,從而違反了開放、合作和公平的科學原則。

**閱讀指南

為此,作者開發了乙個用於科學發現的生成工具包(GT4SD)。 該 Python 庫旨在通過開發乙個簡化生成模型的訓練、執行和開發的框架來加速科學發現。 如圖1所示,GT4SD為所有生成的模型提供了乙個統一的應用程式登錄檔,並為每個屬性提供了乙個單獨的登錄檔。 這不需要使用者熟悉開發**,大大降低了進入門檻。

此外,模型之間的高度標準化簡化了新模型的整合,並促進了容器化或分布式計算系統的使用。 GT4SD為訪問最先進的生成模型提供了最大的框架,這些模型可用於執行、訓練、微調和部署生成模型,所有這些都可以直接通過Python或通過高度靈活的命令列介面(CLI)進行。 所有預訓練模型都可以通過託管在 Hugging Face Spaces 上的 Web 應用程式直接在瀏覽器中執行。

對於高階使用者,GT4SD模型中心簡化了在新資料集上訓練現有演算法的發布過程,以便立即和持續地整合到工作流程中。 GT4SD提供了一組生成假設(推理流水線)和微調特定領域的生成模型(訓練流水線)的能力,與現有的流行庫相容和互操作,包括PyTorch、PyTorch Lightning、Hugging Face Transformers、Diffusers、Guacamol、Moses、TorchDrug、GflowNets和Moler,它還包括用於預訓練模型和材料設計的廣泛應用。

GT4SD提供了乙個簡單的介面,只需幾行即可輕鬆部署生成模型。 該工具為有興趣在科學研究中應用最先進模型的研究人員和學生提供了乙個環境,使他們能夠使用各種預訓練模型進行實驗,涵蓋廣泛的材料科學和藥物發現應用。 此外,GT4SD為推理和訓練API提供了標準化的CLI,而不影響演算法細粒度引數的確定以及基於預訓練模型的15個Web應用程式的能力。

圖 1:GT4SD 結構,實現了用於生成模型的推理和訓練管道,GT4SD 還提供了用於演算法版本控制和共享的實用程式,以便在社群中更廣泛地使用。

可以說,加速科學發現的最大潛力在於從頭分子設計領域,特別是在材料和藥物發現方面。 隨著幾項(預)臨床試驗的進行,第一種人工智慧生成的藥物獲得FDA批准並進入市場只是時間問題。 在一項開創性的研究中,深度強化學習模型 (Gentrl) 被用來發現一種有效的 DDR1 抑制劑,這是一種與纖維化、癌症和其他疾病有關的重要蛋白激酶靶標。 共合成了6個分子,其中4個分子在生化試驗中具有活性,1個分子在小鼠中表現出良好的藥代動力學(Gentrl-DDR1)。

作為應用於分子發現的典型案例,作者使用GentrL-DDR1生成類似的分子並提高其估計的水溶性(ESOL)。 低水溶性影響了 40% 的新化學實體,因此對藥物遞送構成了主要障礙,提高溶解度需要探索 Gentrl-DDR1 周圍的區域性化學空間以找到優化的先導化合物。

圖 2:使用 GT4SD 進行分子發現的案例研究,從使用生成模型 (GenTRL-DDR1) 設計的化合物開始,作者展示了如何使用 GT4SD 快速設計具有所需特性的分子,使用庫中可用的一系列演算法(兩種設定:無條件和有條件)。 條件模型可以由化學支架約束,也可以由所需的屬性值調節。

圖 2 顯示了如何使用 GT4SD 處理此任務的流程。 第一步,可以通過GT4SD的介面訪問一組豐富的預訓練分子生成模型。 有兩個主要的模型類可用。 第一類由圖生成模型表示,例如 Moler 或 Torchdrug 庫中的模型,特別是圖卷積策略網路和基於流的自回歸模型 (graphafs)。 第二個模型類是化學語言模型(CLM),它將分子視為文字(微笑或自拍序列)。 GT4SD中的大多數化學語言模型都可以通過MOSES或Guacamol庫訪問; 特別是 VAE、對抗性自動編碼器 (AAE) 或目標增強 GAN 模型 (ORGAN)。

在第一步中,作者從每個模型學習的化學空間中隨機選擇分子。 對生成的分子與 Gentrl-DDR1 的 tanimoto 相似性的評估表明:這種方法雖然產生了許多具有令人滿意的ESOL的分子,但不能充分反映與種子分子的相似性約束(圖2,左下角)。 這是意料之中的,因為使用的生成模型是無條件的。 作為一種更精細的方法,GT4SD包括基於條件的分子生成模型,這些模型可以通過自然文字查詢(Text+Chem T5)、連續屬性約束或分子子結構(SCAFFOLD)(例如Moler、Reinvent)甚至屬性約束和分子子結構的組合(回歸轉換器)來執行。

從這些模型中獲得的分子,特別是 Moler 和 RT,在很大程度上遵循相似性約束,並產生許多與 Gentrl-DDR1 的相似性 (0)。5個分子。 Moler 和 RT 使 ESOL 增加超過 1 ml(右圖 2)。 在實際應用場景中,藥物化學家可以手動審查使用所述配方生成的分子,並有選擇地考慮合成和篩選。

總結與展望

作者開發的GT4SD是邁向生成式建模環境的第一步,該環境可加速材料發現。 未來,作者將擴大GT4SD的應用領域(如無機材料、可持續性、地理資訊學等)。 未來的發展將集中在兩個主要組成部分上:擴充套件模型評估和樣本屬性**; 開發乙個共享模型生態系統,該生態系統建立在通過現有 CLI 命令公開的功能之上,用於模型生命週期管理。 作者將擴充套件 Guacamol 和 MOSES 的當前整合指標,並探索偏差指標,以根據生成的示例及其屬性更好地分析效能。 在共享生態系統方面,作者認為GT4SD將進一步受益於乙個直觀的應用中心,該中心促進了預訓練生成模型的分發,並使使用者能夠根據特定應用的自定義資料輕鬆微調模型。

書目資訊

matteo manica, jannis born, joris cadow, dimitrios christofidellis, ashish d**e, dean clarke, yves gaetan nana teukam, giorgio giannone, samuel c. hoffman, matthew buchan, vijil chenthamarakshan, timothy donovan, hsiang han hsu, federico zipoli, oliver schilter, akihiro kishimoto, lisa hamada, inkit padhi, karl wehden, lauren mchugh, alexy khrabrov, payel das, seiji takeda and john r. smith. accelerating material design with the generative toolkit for scientific discovery. npj computational materials 9, 69 (2023)

相關問題答案

    機器學習材料、資料探勘和 JACS!

    背景 銅基奈米晶體是與新興綠色技術密切相關的關鍵奈米材料,而液體雷射燒蝕 LAL 是一種出色的合成技術。然而,迄今為止,在LAL提供的廣泛奈米材料庫中實現特定型別的銅基奈米晶體依賴於調整合成引數和依賴經驗產物。義大利帕多瓦大學的Amendola團隊通過資料探勘分析了銅基奈米晶體的LAL合成文獻資料,...

    “Material Design” 陶瓷 設計之美!

    陶瓷產品在日常生活中隨處可見且使用頻繁,陶瓷是運用在產品設計理念上,追求符合當代審美,融入實用性 創新性,今天就和大家分享幾款陶瓷材料產品設計,希望能給大家帶來更多的設計靈感。Pinso 設計 年專注專業設計師培養!學習設計,來品碩,做乙個專業的設計師!原創內容條。 one mississippi ...

    TVM Unity機器學習習編譯技術革命

    ...

    機器學習與深度學習的關係與應用

    機器學習和深度學習是當今人工智慧領域的兩大核心技術。它們在許多領域發揮著重要作用,從影象識別和語音識別到自然語言處理,再到自動駕駛和醫療診斷。本文探討了機器學習和深度學習之間的關係,以及它們在實際應用中的重要性和潛力。機器學習是人工智慧的乙個分支,它從資料中學習並通過訓練模型做出決策。機器學習的核心...

    Halcon 機器視覺軟體學習指南

    介紹 HALCON是德國MVTEC軟體公司開發的一款領先的機器視覺軟體,廣泛應用於工業檢測 影象分析 醫學影象處理等領域。對於大學生和初學者來說,學習 HALCON 不僅可以提高他們的技術技能,還可以增強他們未來的競爭力。本文將為您提供系統的halcon學習路線。基礎知識儲備 在開始學習 HALCO...