今天給大家講講2024年12月發表在《核酸研究》上的一篇文章使用語言模型學習BCR序列的生物學意義品。 作者使用不同的嵌入方法提取BCR序列的表徵,並評估了多個嵌入模型的效能,發現大多數嵌入方法都能有效地捕獲BCR序列的特性和特異性。 在受體特異性在方面,immune2vec 模型提取了 BCR 特異性嵌入表徵**,略優於一般蛋白質語言模型。 這可以看作是對抗體分析和發現的下游任務的洞察力。
B 細胞受體 (BCR)。它是一種位於B細胞表面的蛋白質結構,在免疫系統中起著關鍵作用。 免疫系統主要任務是識別和應對體內外的病原體,如細菌、病毒和其他病原微生物。 BCR在這個過程中起著重要作用。
整體BCR的功能是啟動針對免疫系統中病原體的特異性防禦反應。通過BCR的多樣性和特異性,免疫系統能夠識別和對抗各種不同型別的病原體,保護身體免受感染和疾病。 現存NLP 方法通過學習氨基酸的嵌入式表徵,在下游任務中生成特定的表徵。 這種型別的方法通過將每個B細胞受體(BCR)分解成更小的單元,即三個氨基酸的組合(3-MERS),然後將每個單元嵌入到固定長度的序列表示中。 然後對整個序列進行平均,為給定的 BCR 生成單個向量。
方法可以識別BCR序列中的模式,包括互補決定因素區域 (CDR) 的特定序列特徵。 這是給你的**BCR與抗原的結合和其他功能特性關鍵。 然而,生物資料標記成本高昂,在某些情況下可能還不夠。 這使得一些需要大量標記資料的深度學習方法在學習BCR序列時受到限制。
2.1 資料收集和預處理
作者來自十資料收集了 100 萬個全長 BCR 序列,只有一條重鏈和輕鏈。 重鏈和輕鏈的中位長度分別為 122 個和 108 個氨基酸。 作者進一步利用immcantation對序列進行體細胞高突變頻率和 CDR3 長度注釋。 此外,從受體特異性**任務的資料集中獲得了與 SARS-CoV-2 刺突蛋白標籤相關的資訊。 為平衡資料集,從以前的 COVID-19 資料集中隨機選擇每個供體的 1000 個序列作為特異性陰性樣本**。
2.2**任務
在分類任務中,作者使用支援具有 RBF 核心函式的向量機分類器 (SVC)將資料分為:訓練驗證跟測試集。為了搜尋模型的最優引數,它仍然在SVC中正則化引數進行網格搜尋,根據驗證集的加權平均F1分數選擇最優引數。
在分類任務中,選擇它帶 LASSO 的線性模型在網格中搜尋回歸器的正則化引數,最後根據RMSE和驗證集上的相關性評估模型的效能。
3.1 評估受體特異性**任務
作者提取了不同模型(ESM2、Prott5、Antiberty 等)的 BCR 嵌入表徵分類跟回歸分析了任務中的效能。 圖1A說明了將BCR氨基酸序列編碼到特定載體中的不同嵌入模型,通過監督式機器學習模型評估重鏈或輕鏈,或受體特異性**。 此外,嵌入表徵被用作受體特異性**任務的乙個例子(圖1B)。交叉驗證通過這種方式,選擇了最佳模型引數。
圖1 BCR氨基酸插層序列屬性**和受體特異性**任務。
3.2 嵌入表徵對 SARS-CoV-2 特異性的重要性
作者評估了不同 BCR 嵌入特徵對 SARS-CoV-2 刺突蛋白受體特異性方面的影響。首先,從抗體資料庫(CoV-Abdab)中檢索與SARS-CoV-2野生型刺突蛋白結合資訊的BCR序列,並隨機選擇每個供體的1000個序列作為非偶聯物。 最後,基於15,538個序列評估了包埋方法**冠狀病毒刺突蛋白特異性的能力。
作者的Immune2VEC 模型了解每個序列的特定嵌入表示,並將它們放置在不同的序列輸入上UMAP視覺化。(圖 2a)。
圖 2b 顯示了 F1 評分的箱線圖,用於評估五倍交叉驗證在受體特異性任務中的作用。 先前關於 BCR 特異性**的研究通常集中在重鏈的 CDR3 區域。 由於單細胞技術的出現,可以在CDR3以外的區域引入更多結構,從而有助於引入更可靠的特異性**結果。 可以找到當使用全長序列時,BCR 特異性語言模型優於通用蛋白質語言模型 ESM2 和 PROTT5。為了了解immune2vec模型的潛在維度大小對受體特異性任務的影響,作者還進行了相應的實驗(圖2c),發現隨著維度的增加,效能先增加後略有下降。 同樣,對於資訊較少的較短序列,效能下降在較高維度上更為明顯。
圖 2 使用 BCR 嵌入的受體特定任務的模型效能。
作者提出了乙個Immune2VEC 模型用於:**SARS-CoV-2刺突蛋白的BCR序列特性和特異性。進一步測試了不同模型在學習BCR序列嵌入表示方面的效能。 在模型架構方面,儘管所有方法都編碼了一些序列屬性和特異性,但通過基於序列的上下文學習氨基酸的表示,基於蛋白質語言模型的嵌入表示會更好。 此外,在序列屬性任務中,發現具有較高潛在維度的 immune2vec 模型從序列中學到更多,效能更好;然而,它不如特異性有效**。
通常語言模型優於傳統的氨基酸編碼在 SARS-CoV-2 刺突蛋白的特異性中,immune2vec 和 antiberty 等模型在一定程度上優於一般蛋白語言模型,並且全長和輕鏈序列的組合可以提高特異性**效能,這也為將 BCR 嵌入用於下游任務提供了獨特的視角。
引用
ostrovsky-berman m., frankel b., polak p., yaari g. immune2vec: embedding b/t cell receptor sequences in ℝn using natural language processing. front. immunol. 2021; 12:680687.如果您發現任何侵犯版權或其他對發布內容的誤解,請聯絡AIDD PRO(請新增***sixiali fox59)進行刪除和修改。
本文為原創內容,未經授權禁止**,經授權**後,還需註明出處。 如果您有任何問題,請傳送電子郵件至sixiali@stonewisecn