語言模型在B細胞受體特異性識別中的優異表現

今天給大家講講2024年12月發表在《核酸研究》上的一篇文章使用語言模型學習BCR序列的生物學意義品。作者使用不同的嵌入方法提取BCR序列的表徵，並評估了多個嵌入模型的效能，發現大多數嵌入方法都能有效地捕獲BCR序列的特性和特異性。在受體特異性在方面，immune2vec 模型提取了 BCR 特異性嵌入表徵**，略優於一般蛋白質語言模型。這可以看作是對抗體分析和發現的下游任務的洞察力。

B 細胞受體（BCR）。它是一種位於B細胞表面的蛋白質結構，在免疫系統中起著關鍵作用。 免疫系統主要任務是識別和應對體內外的病原體，如細菌、病毒和其他病原微生物。 BCR在這個過程中起著重要作用。

整體BCR的功能是啟動針對免疫系統中病原體的特異性防禦反應。通過BCR的多樣性和特異性，免疫系統能夠識別和對抗各種不同型別的病原體，保護身體免受感染和疾病。現存NLP 方法通過學習氨基酸的嵌入式表徵，在下游任務中生成特定的表徵。這種型別的方法通過將每個B細胞受體（BCR）分解成更小的單元，即三個氨基酸的組合（3-MERS），然後將每個單元嵌入到固定長度的序列表示中。然後對整個序列進行平均，為給定的 BCR 生成單個向量。

方法可以識別BCR序列中的模式，包括互補決定因素區域（CDR）的特定序列特徵。這是給你的**BCR與抗原的結合和其他功能特性關鍵。然而，生物資料標記成本高昂，在某些情況下可能還不夠。這使得一些需要大量標記資料的深度學習方法在學習BCR序列時受到限制。

2.1 資料收集和預處理

作者來自十資料收集了 100 萬個全長 BCR 序列，只有一條重鏈和輕鏈。重鏈和輕鏈的中位長度分別為 122 個和 108 個氨基酸。作者進一步利用immcantation對序列進行體細胞高突變頻率和 CDR3 長度注釋。此外，從受體特異性**任務的資料集中獲得了與 SARS-CoV-2 刺突蛋白標籤相關的資訊。為平衡資料集，從以前的 COVID-19 資料集中隨機選擇每個供體的 1000 個序列作為特異性陰性樣本**。

2.2**任務

在分類任務中，作者使用支援具有 RBF 核心函式的向量機分類器（SVC）將資料分為：訓練驗證跟測試集。為了搜尋模型的最優引數，它仍然在SVC中正則化引數進行網格搜尋，根據驗證集的加權平均F1分數選擇最優引數。

在分類任務中，選擇它帶 LASSO 的線性模型在網格中搜尋回歸器的正則化引數，最後根據RMSE和驗證集上的相關性評估模型的效能。

3.1 評估受體特異性**任務

作者提取了不同模型（ESM2、Prott5、Antiberty 等）的 BCR 嵌入表徵分類跟回歸分析了任務中的效能。圖1A說明了將BCR氨基酸序列編碼到特定載體中的不同嵌入模型，通過監督式機器學習模型評估重鏈或輕鏈，或受體特異性**。此外，嵌入表徵被用作受體特異性**任務的乙個例子（圖1B）。交叉驗證通過這種方式，選擇了最佳模型引數。

圖1 BCR氨基酸插層序列屬性**和受體特異性**任務。

3.2 嵌入表徵對 SARS-CoV-2 特異性的重要性

作者評估了不同 BCR 嵌入特徵對 SARS-CoV-2 刺突蛋白受體特異性方面的影響。首先，從抗體資料庫（CoV-Abdab）中檢索與SARS-CoV-2野生型刺突蛋白結合資訊的BCR序列，並隨機選擇每個供體的1000個序列作為非偶聯物。最後，基於15,538個序列評估了包埋方法**冠狀病毒刺突蛋白特異性的能力。

作者的Immune2VEC 模型了解每個序列的特定嵌入表示，並將它們放置在不同的序列輸入上UMAP視覺化。（圖 2a）。

圖 2b 顯示了 F1 評分的箱線圖，用於評估五倍交叉驗證在受體特異性任務中的作用。先前關於 BCR 特異性**的研究通常集中在重鏈的 CDR3 區域。由於單細胞技術的出現，可以在CDR3以外的區域引入更多結構，從而有助於引入更可靠的特異性**結果。可以找到當使用全長序列時，BCR 特異性語言模型優於通用蛋白質語言模型 ESM2 和 PROTT5。為了了解immune2vec模型的潛在維度大小對受體特異性任務的影響，作者還進行了相應的實驗（圖2c），發現隨著維度的增加，效能先增加後略有下降。同樣，對於資訊較少的較短序列，效能下降在較高維度上更為明顯。

圖 2 使用 BCR 嵌入的受體特定任務的模型效能。

作者提出了乙個Immune2VEC 模型用於：**SARS-CoV-2刺突蛋白的BCR序列特性和特異性。進一步測試了不同模型在學習BCR序列嵌入表示方面的效能。在模型架構方面，儘管所有方法都編碼了一些序列屬性和特異性，但通過基於序列的上下文學習氨基酸的表示，基於蛋白質語言模型的嵌入表示會更好。此外，在序列屬性任務中，發現具有較高潛在維度的 immune2vec 模型從序列中學到更多，效能更好;然而，它不如特異性有效**。

通常語言模型優於傳統的氨基酸編碼在 SARS-CoV-2 刺突蛋白的特異性中，immune2vec 和 antiberty 等模型在一定程度上優於一般蛋白語言模型，並且全長和輕鏈序列的組合可以提高特異性**效能，這也為將 BCR 嵌入用於下游任務提供了獨特的視角。

引用

ostrovsky-berman m., frankel b., polak p., yaari g. immune2vec: embedding b/t cell receptor sequences in ℝn using natural language processing. front. immunol. 2021; 12:680687.如果您發現任何侵犯版權或其他對發布內容的誤解，請聯絡AIDD PRO（請新增***sixiali fox59）進行刪除和修改。

本文為原創內容，未經授權禁止**，經授權**後，還需註明出處。如果您有任何問題，請傳送電子郵件至sixiali@stonewisecn

語言模型在B細胞受體特異性識別中的優異表現

相關問題答案

Microsoft Small Language Model 2 7B 可以擊敗 Llama 2 70B！96 架 A100 在 14 天內訓練了 Phi 2

中文模型 AskBot 大模型助力企業提供智慧型服務

在大型語言模型的浪潮下，我們離AI原生應用還有多遠？

大型語言模型簡介：基於 Amazon Bedrock 的概述

LLM大語言模型 AskBot大模型的深度分析與應用