語言模型在B細胞受體特異性識別中的優異表現

Mondo 健康 更新 2024-02-01

今天給大家講講2024年12月發表在《核酸研究》上的一篇文章使用語言模型學習BCR序列的生物學意義品。 作者使用不同的嵌入方法提取BCR序列的表徵,並評估了多個嵌入模型的效能,發現大多數嵌入方法都能有效地捕獲BCR序列的特性和特異性。 在受體特異性在方面,immune2vec 模型提取了 BCR 特異性嵌入表徵**,略優於一般蛋白質語言模型。 這可以看作是對抗體分析和發現的下游任務的洞察力。

B 細胞受體 (BCR)。它是一種位於B細胞表面的蛋白質結構,在免疫系統中起著關鍵作用。 免疫系統主要任務是識別和應對體內外的病原體,如細菌、病毒和其他病原微生物。 BCR在這個過程中起著重要作用。

整體BCR的功能是啟動針對免疫系統中病原體的特異性防禦反應。通過BCR的多樣性和特異性,免疫系統能夠識別和對抗各種不同型別的病原體,保護身體免受感染和疾病。 現存NLP 方法通過學習氨基酸的嵌入式表徵,在下游任務中生成特定的表徵。 這種型別的方法通過將每個B細胞受體(BCR)分解成更小的單元,即三個氨基酸的組合(3-MERS),然後將每個單元嵌入到固定長度的序列表示中。 然後對整個序列進行平均,為給定的 BCR 生成單個向量。

方法可以識別BCR序列中的模式,包括互補決定因素區域 (CDR) 的特定序列特徵。 這是給你的**BCR與抗原的結合和其他功能特性關鍵。 然而,生物資料標記成本高昂,在某些情況下可能還不夠。 這使得一些需要大量標記資料的深度學習方法在學習BCR序列時受到限制。

2.1 資料收集和預處理

作者來自十資料收集了 100 萬個全長 BCR 序列,只有一條重鏈和輕鏈。 重鏈和輕鏈的中位長度分別為 122 個和 108 個氨基酸。 作者進一步利用immcantation對序列進行體細胞高突變頻率和 CDR3 長度注釋。 此外,從受體特異性**任務的資料集中獲得了與 SARS-CoV-2 刺突蛋白標籤相關的資訊。 為平衡資料集,從以前的 COVID-19 資料集中隨機選擇每個供體的 1000 個序列作為特異性陰性樣本**。

2.2**任務

在分類任務中,作者使用支援具有 RBF 核心函式的向量機分類器 (SVC)將資料分為:訓練驗證測試集。為了搜尋模型的最優引數,它仍然在SVC中正則化引數進行網格搜尋,根據驗證集的加權平均F1分數選擇最優引數。

在分類任務中,選擇它帶 LASSO 的線性模型在網格中搜尋回歸器的正則化引數,最後根據RMSE和驗證集上的相關性評估模型的效能。

3.1 評估受體特異性**任務

作者提取了不同模型(ESM2、Prott5、Antiberty 等)的 BCR 嵌入表徵分類回歸分析了任務中的效能。 圖1A說明了將BCR氨基酸序列編碼到特定載體中的不同嵌入模型,通過監督式機器學習模型評估重鏈或輕鏈,或受體特異性**。 此外,嵌入表徵被用作受體特異性**任務的乙個例子(圖1B)。交叉驗證通過這種方式,選擇了最佳模型引數。

圖1 BCR氨基酸插層序列屬性**和受體特異性**任務。

3.2 嵌入表徵對 SARS-CoV-2 特異性的重要性

作者評估了不同 BCR 嵌入特徵對 SARS-CoV-2 刺突蛋白受體特異性方面的影響。首先,從抗體資料庫(CoV-Abdab)中檢索與SARS-CoV-2野生型刺突蛋白結合資訊的BCR序列,並隨機選擇每個供體的1000個序列作為非偶聯物。 最後,基於15,538個序列評估了包埋方法**冠狀病毒刺突蛋白特異性的能力。

作者的Immune2VEC 模型了解每個序列的特定嵌入表示,並將它們放置在不同的序列輸入上UMAP視覺化。(圖 2a)。

圖 2b 顯示了 F1 評分的箱線圖,用於評估五倍交叉驗證在受體特異性任務中的作用。 先前關於 BCR 特異性**的研究通常集中在重鏈的 CDR3 區域。 由於單細胞技術的出現,可以在CDR3以外的區域引入更多結構,從而有助於引入更可靠的特異性**結果。 可以找到當使用全長序列時,BCR 特異性語言模型優於通用蛋白質語言模型 ESM2 和 PROTT5。為了了解immune2vec模型的潛在維度大小對受體特異性任務的影響,作者還進行了相應的實驗(圖2c),發現隨著維度的增加,效能先增加後略有下降。 同樣,對於資訊較少的較短序列,效能下降在較高維度上更為明顯。

圖 2 使用 BCR 嵌入的受體特定任務的模型效能。

作者提出了乙個Immune2VEC 模型用於:**SARS-CoV-2刺突蛋白的BCR序列特性和特異性。進一步測試了不同模型在學習BCR序列嵌入表示方面的效能。 在模型架構方面,儘管所有方法都編碼了一些序列屬性和特異性,但通過基於序列的上下文學習氨基酸的表示,基於蛋白質語言模型的嵌入表示會更好。 此外,在序列屬性任務中,發現具有較高潛在維度的 immune2vec 模型從序列中學到更多,效能更好;然而,它不如特異性有效**。

通常語言模型優於傳統的氨基酸編碼在 SARS-CoV-2 刺突蛋白的特異性中,immune2vec 和 antiberty 等模型在一定程度上優於一般蛋白語言模型,並且全長和輕鏈序列的組合可以提高特異性**效能,這也為將 BCR 嵌入用於下游任務提供了獨特的視角。

引用

ostrovsky-berman m., frankel b., polak p., yaari g. immune2vec: embedding b/t cell receptor sequences in ℝn using natural language processing. front. immunol. 2021; 12:680687.如果您發現任何侵犯版權或其他對發布內容的誤解,請聯絡AIDD PRO(請新增***sixiali fox59)進行刪除和修改。

本文為原創內容,未經授權禁止**,經授權**後,還需註明出處。 如果您有任何問題,請傳送電子郵件至sixiali@stonewisecn

相關問題答案

    Microsoft Small Language Model 2 7B 可以擊敗 Llama 2 70B!96 架 A100 在 14 天內訓練了 Phi 2

    編輯 執行艾倫大模型現在真的越來越多了! 月,OpenAI 首先用 GPTS 改變了 GPT shell 的壽命,然後不惜犧牲董事會來對抗一波流量。谷歌被迫在年底前匆匆發布超大模型雙子座,捲起多模態,甚至不惜偽造。就在今天,Microsoft正式宣布了 phi !它在 月的 Ignite 大會上進行...

    中文模型 AskBot 大模型助力企業提供智慧型服務

    隨著人工智慧技術的不斷發展,越來越多的企業正在利用智慧型服務來提公升工作效率和員工體驗。其中,AskBot大模型作為整合了多個大語言模型的人工智慧解決方案,已成為企業實現智慧型服務的重要工具。下面將從中文語言模型的角度出發,深化askbot大模型在企業智慧型服務中的應用和優勢。.AskBot大模型介...

    在大型語言模型的浪潮下,我們離AI原生應用還有多遠?

    隨著人工智慧大型語言模型如雨後春筍般湧現,人工智慧時代已經悄然到來。就像蒸汽 電力 資訊的時代一樣,它以獨特的方式席捲世界,正在一步步改變著人們的生活。但你可能會有這樣乙個疑問,如此先進的AI大語言模型到底給我們帶來了什麼?事實上,人工智慧的發展可以追溯到多年前,在這個過程中,人工智慧經歷了許多起起...

    大型語言模型簡介:基於 Amazon Bedrock 的概述

    本文介紹了基於 Bedrock 的大型語言模型,Bedrock 是亞馬遜雲科技推出的大型語言模型和生成式 AI 系列。大型語言模型是具有數十億個引數 B 的預訓練語言模型 例如 GPT Bloom Llama 該模型可用於各種自然語言處理任務,例如文字生成 機器翻譯和自然語言理解。大型語言模型的這些...

    LLM大語言模型 AskBot大模型的深度分析與應用

    在當今的人工智慧領域,大型語言模型 LLMs 已成為乙個熱門話題。通過深度學習和自然語言處理技術,LLM能夠理解和生成更自然 更準確的文字內容。作為最好的模型之一,AskBot 模型將 LLM 的應用推向了乙個新的高度。.LLM大型語言模型概述。LLM是一種基於深度學習的自然語言處理模型,其核心是在...