單細胞測序技術的出現使得人們能夠以前所未有的精度觀測細胞。然而,單次單細胞轉錄組測序(scRNA-seq)實驗難以捕獲所有細胞和基因的信息,單個模態的單細胞數據無法詳細闡釋細胞狀態和系統變化,單細胞數據的整合分析旨在解決這兩類問題。整合不同來源的scRNA-seq數據,可以收集完整的細胞類型,為構建細胞圖譜提供強大助力;整合多個模態的單細胞數據,可以研究模態間因果關系和基因調控機制。數據整合方法的開發與應用幫助充分挖掘單細胞數據的豐富性和相關性,發現有意義的生物學變化。基于此,本文綜述了多源scRNA-seq數據整合和單細胞多模態數據整合的基本原理、方法和應用,并討論了現有方法的優勢和不足,最后對未來的發展前景予以展望。
引用本文: 潘多, 李華梅, 劉宏德, 孫嘯. 單細胞數據的整合方法綜述. 生物醫學工程學雜志, 2021, 38(5): 1010-1017. doi: 10.7507/1001-5515.202104073 復制
引言
細胞是生物體的基本組成單位,每個細胞都是獨一無二的。單細胞測序從單個細胞水平上獲取細胞信息,解決了傳統測序技術基于群體細胞測序而掩蓋細胞間異質性的難題,把研究精度從群體細胞精確到單個細胞,有助于深入探索細胞的異質性和生命活動。單細胞轉錄組測序(single-cell RNA sequencing,scRNA-seq)是當前應用最廣泛的單細胞測序技術,它對單個細胞的mRNA進行反轉錄、擴增和高通量測序,根據轉錄譜的相似性,可以分辨不同的細胞類型,甚至揭示新的細胞類型[1]。構建細胞圖譜是scRNA-seq技術發展的重要應用,是研究基礎生物學、衰老、疾病、治療反應的基本前提[2]。然而,單次scRNA-seq實驗難以捕獲一個組織或器官中所有的細胞和基因,獲得的數據無法提供完整的細胞信息。同時,測序深度和規模、生物噪聲和技術噪聲都將限制單個scRNA-seq數據集的可挖掘性。因此,整合分析多個來源的scRNA-seq數據能夠有效彌補單個數據集的局限,收集更完整的細胞類型和生物信息,助力生成全景細胞圖譜。多源scRNA-seq數據整合是指集成多個不同來源(實驗、平臺、樣本、組織等)的scRNA-seq數據集,校正系統差異使細胞基于細胞類型而聚集,生成高質量的大數據集,如圖1所示。

scRNA-seq迅速發展的同時,聚焦于其他模態的單細胞技術也在不斷地開發和應用中,人們可以獲取同一細胞的不同模態數據,如基因組測序、DNA甲基化、染色體構象、染色質可及性、蛋白質豐度等。目前,大多數單細胞技術只是單純研究細胞某一模態生物分子的變化,提供細胞異質性的局部景觀,不足以深入理解細胞狀態和功能。因此,整合分析多個模態的單細胞數據能夠從不同層次的模態特征解釋細胞所處的狀態、展現細胞內含的生物邏輯,這將彌補單一模態的片面性,使人們能夠從各種生物分子的組成、結構、功能等方面深刻了解和認識細胞。單細胞多模態數據整合是指分析單細胞多個模態組學的數據,發現模態間交互關系,挖掘基因調控機制,增強細胞類型的可解釋性,如圖1所示。
單細胞數據整合分為多源scRNA-seq數據整合和多模態數據整合,前者側重某一組織內細胞類型的完整性,后者更側重調控機制的挖掘,這兩者分別從橫向和縱向的角度提供細胞的全景圖和近景信息,以多視角、多視圖來解釋細胞的異質性和身份,為生物系統研究提供重要綜合性參考。近年來,研究人員開發了多種方法來實現單細胞數據的整合,作為數據分析的核心,發展創新且有效的數據整合方法為充分挖掘單細胞數據、提取有意義的生物學信息提供了強大助力。本文將對多源scRNA-seq數據整合和單細胞多模態數據整合的基本原理、方法和應用進行綜述,并根據方法的特色優勢和不足提出應用指南,并對未來的發展前景予以展望。
1 多源scRNA-seq數據整合
1.1 多源scRNA-seq數據的整合方法
單細胞轉錄組數據通常來自多個實驗,由于技術性因素(擴增方式、測序平臺、實驗人員等)、生物性因素(個體、處理、物種等)以及數據自身性質(細胞數量、測序深度)的差異,數據集在合并時會呈現明顯的批次效應,表達量具有系統偏差,這將混淆真正的生物邏輯變化。因此,多源scRNA-seq數據整合的目標就是校正系統偏差,使細胞基于真實的生物類型或狀態聚集在一起,而不受來源的影響[3]。
scRNA-seq數據通常以基因表達矩陣的形式呈現,矩陣的行為基因、列為細胞,因此scRNA-seq數據整合本質上就是表達矩陣的整合。在整合前,一般會對每個數據集執行相同的預處理,包括質控、歸一化、標準化、特征選擇,選取一定數量的高變異基因(highly variable genes,HVGs)。然后,通常是取每個數據集HVGs的交集用于整合,使得基因數量保持一致。整合時,為了統一度量細胞間的距離,需要將待整合的數據集放置在同一個空間下。由于在高維的基因表達空間下計算復雜,研究人員通常使用降維策略將所有數據映射到一個共享的低維空間,前提是所有數據集至少共享一種相同細胞類型,并且默認假設來自不同數據集但具有相同細胞類型或生物狀態的細胞互相靠近,這些細胞對反映了不同數據集間的對應關系[4]。本文將多源scRNA-seq數據整合方法分為配準和圖聚類兩種策略。配準類方法的核心思想是在共享空間下,以一個數據集作為基準,另一個數據集作為目標,根據兩個數據集相似細胞對間的距離,以及相似細胞對與目標細胞的關聯程度,計算目標細胞特異的校正向量,指導目標數據集向基準數據集配準;或者,各個數據集均向公共的基準尺度(例如質心)配準,如圖2所示。此類方法結果可能輸出一個校正的綜合表達矩陣,也可能輸出校正后的低維嵌入,即配準后每個細胞在共享低維空間中的坐標。圖聚類方法的核心思想是針對單細胞進行圖的聚類分析,將不同數據集相似的細胞聚類在一起,如圖2所示。在共享空間中,以細胞為節點,連接節點形成邊,基于細胞間距離為邊分配權值,構建加權聯合圖。接著,利用社區發現算法對圖進行聚類,將來源不同但密切連接的細胞聚類在一起,實現整合,結果通常以圖的形式輸出。有的方法同時運用了配準和圖聚類兩種策略,在構建聯合圖后,還對數據集進行了配準。當輸出結果為一個校正的基因表達矩陣時,可以進行廣泛的下游分析;校正低維嵌入和聯合圖可用于可視化、聚類和擬時序分析,由于這兩種結果沒有改變原始表達值,因此不能直接用于差異表達分析、基因調控網絡等基因層面的分析。可以使用批次感知的線性混合效應模型進行差異表達分析,或者對未校正的基因表達矩陣進行單獨分析和共同比較[5-6]。此外,除了上述配準類和圖聚類的整合方法,還有基于深度學習的整合方法。本文總結了近年來主要的多源scRNA-seq數據整合方法,包括整合策略、應用的主要算法、輸出結果、程序語言和參考文獻,如表1所示。


配準類方法中,多集典型相關分析(multi-set canonical correlation analysis,MultiCCA)是最早被報道的經典方法之一,支持在單細胞基因組學R工具包Seurat 2.0(Satija實驗室,美國)中運行使用[7]。MultiCCA首先利用典型相關分析(canonical correlation analysis,CCA)將兩個數據集映射到一個低維空間,接著利用動態時間規整(dynamic time warping,DTW)將兩個數據集配準到一個共同的基準尺度,輸出對齊的低維嵌入。同期,Haghverdi等[4]提出了以相互最近鄰(mutual nearest neighbors,MNN)為核心的MNN校正(MNN-Correct),對于基準數據集的每個細胞,確定在目標數據集中k個最近鄰(k-nearest neighbors,KNN),對于目標數據集也執行相同的操作;當一對細胞包含在彼此的k個近鄰中,則視為一對MNN,代表不同數據集中具有相同細胞類型或狀態的細胞對。MNN-Correct在余弦歸一化的表達數據上計算細胞間的歐氏距離,得到一組MNN,MNN對的距離差值可以估算批次效應的大小,根據這些MNN對差異向量的加權平均值計算細胞特異的校正向量,將目標數據集向基準數據集配準。由于MNN-Correct在高維空間中運算,計算量巨大,快速MNN(fastMNN)作為MNN-Correct的新版本,增加了主成分分析(principal component analysis,PCA)降維步驟,運行速度提升。
受MNN的啟發,在修拉(Seurat)版本三(Seurat V3)、單細胞合并(scMerge)、全景(Scanorama)中也引入了MNN的思想[6, 8-9]。Seurat V3在CCA定義的低維空間中識別MNN,并取名為錨點。為了確認錨點的可靠性,Seurat V3對錨點進行了過濾和評分:首先,返回高維的表達空間查看錨點的KNN條件是否同樣滿足,排除表達譜差異很大的錯誤錨點;然后,根據每對錨點細胞的鄰域重疊率為每個錨點打分,在后續計算中降低低分數錨點的權重,以提高結果的魯棒性和準確率。scMerge利用伽馬-高斯混合模型識別一組穩定表達基因(stably expressed genes,SEGs);在PCA空間下識別不同數據集的相互最近集群,其中一定比例的最接近集群質心的細胞集稱為偽重復,即不同數據集的同一類細胞;利用三步刪除不必要變異模型(remove unwanted variation, 3-step,RUVⅢ)計算SEGs在偽重復中的表達差值,刪除來源影響并配準數據集[10]。Scanorama將MNN的識別從兩個數據集推廣至多個數據集中,對于每個數據集的細胞,KNN的搜尋范圍擴展為其余數據集的所有細胞,從而獲取所有數據集中轉錄譜相似的MNN匹配,通過這些匹配將數據集拼接起來形成一張“全景圖”。類似于MNN-Correct的校正計算,每個細胞的校正向量由其近鄰范圍內MNN對差異向量的加權平均得到,然后根據MNN細胞的占比確定每個數據集的合并順序,依次合并到全景圖中。Scanorama使用隨機奇異值分解(randomized singular value decomposition,rSVD)進行降維,基于局部敏感哈希算法搜索近似的KNN,這大大加快了運行速度,可靈活應用于大數據集。鴻蒙(Harmony)是一種迭代聚類的整合方法,將所有數據集的細胞向聚類質心進行配準。在PCA空間中,Harmony使用k均值軟聚類將相似細胞聚類在一起,并且最大化每個集群內的數據集多樣性;在每個集群中,根據集群質心和數據集特異質心,計算細胞特異的校正因子來校正每個細胞;迭代運行以上兩個過程,相當于迭代消除數據集來源對細胞聚類分配的影響,直到細胞的低維嵌入收斂到精確值,即完成整合,輸出校正的低維嵌入[5]。
批次平衡k近鄰(batch balanced k nearest neighbours,BBKNN)、樣本網絡聚類法(clustering on network of samples,Conos)和基因組實驗關系關聯推斷(linked inference of genomic experimental relationships,LIGER)是圖聚類的整合方法[11-13]。BBKNN首先在PCA空間中識別每個細胞在數據集內和不同數據集間的KNN并連接起來,然后按照一致流形近似和投影(uniform manifold approximation and projection,UMAP)的方法將近鄰距離轉換為連接分數,為每個連接賦予相應的權重,輸出加權聯合圖用于聚類。Conos在低維空間中應用旋轉空間和近鄰(KNN和MNN)的策略,將數據集兩兩比較,建立數據集間和數據集內的邊,用于構造聯合圖,其中根據細胞間相似性確定邊的權重,并且降低數據集內的邊相對于數據集間的邊在圖中的貢獻;然后使用社區發現算法來獲得聚類。LIGER應用綜合非負矩陣分解(integrative non-negative matrix factorization,iNMF)進行降維,識別數據集特異和共享的兩組因子來定義每個細胞的低維嵌入[14]。在因子空間下,計算細胞在數據集內和數據集間的KNN,并連接成對的相似細胞,即具有相似因子載荷模式的細胞,從而構建一個共享因子鄰域圖,用于社區發現算法聚類。聚類后,LIGER還對每個聯合集群的因子載荷進行分位數歸一化(quantiles normalization,QN),輸出校正的低維嵌入。
近年來,研究人員將深度學習技術引入生物學領域,幫助處理生物數據資料,解決生物信息學問題,在數據整合方面也不斷有新的進展。深度學習類方法的核心思想是利用深度網絡學習數據結構和配準關系,處理優化問題,以克服批次效應。最大均值差異殘差網絡(maximum mean discrepancy and residual nets,MMD-ResNet)應用殘差神經網絡模型,以最小化基準數據集和目標數據集分布的最大均值差為目標,學習兩個數據集之間的映射關系,使得兩者在分布上相似[15]。深度MNN(deepMNN)也應用了殘差神經網絡,該方法利用PCA空間中識別的MNN對訓練網絡,并以最小化MNN對中的細胞間距、使網絡的輸出與輸入相似為目標,指導網絡學習從而消除數據集間的批次效應[16]。單細胞基因表達數據模型(scGen)結合了變分自編碼器(variational auto-encoder,VAE)模型和潛在空間向量算法,只適用于已知細胞類型的數據整合。該方法的過程是輸入標記細胞類型的數據,經過編碼器映射到一個潛在空間中,在此空間下計算不同數據集中相同細胞類型的細胞間的差異向量,然后向其中一個數據集進行配準,再經過解碼器映射回原本的高維表達空間,輸出一個校正的基因表達矩陣[17]。Wang等[18]利用自編碼器和生成式對抗網絡(generative adversarial network,GAN)構建了對抗式配對風格遷移網絡集成多源單細胞數據集(integration of multiple single-cell datasets by adversarial paired-style transfer networks,iMAP)模型,該模型分兩個步驟進行數據整合,首先以保留生物變異、去除批次影響為優化目標,在自編碼器中重建細胞表達譜,第二步在識別的MNN上訓練GAN以正確匹配共享細胞類型的分布。其中,iMAP還引入了隨機游走的策略來擴展MNN列表,從而更好地覆蓋共享細胞類型的全部分布,有助于GAN的訓練。
1.2 多源scRNA-seq數據整合的應用
許多整合方法現已應用于scRNA-seq數據分析中,去除批次效應,鑒定新的細胞類型,繪制單細胞圖譜,并在腫瘤、腦科學、病毒等研究領域取得了一定成果。例如,Zhang等[19]利用Harmony整合了一位肝癌患者多個組織的、兩種測序技術獲得的免疫細胞,綜合不同測序技術的優勢能夠繪制出更高分辨率的肝癌免疫圖譜,通過聯合分析還識別出了罕見的細胞群,對肝癌的免疫治療具有指導意義。Liao等[20]利用Harmony和fastMNN整合來自三個不同捐贈者的腎臟組織單細胞轉錄組數據,鑒定出三個近端小管細胞的亞型和兩個集合管細胞的亞型,為腎小管細胞的精確分類和相關疾病研究提供了重要的參考。Trujillo等[21]建立了一個皮層類器官模型用于模擬人腦早期發育,用Seurat V3整合四個培養時間點下所測序的類器官單細胞數據,經細胞注釋,類器官發育過程中的細胞類型變化證明該模型具有功能性。這些整合方法在新型冠狀病毒(severe acute respiratory syndrome coronavirus 2,SARS-CoV-2)的研究中也提供了有效助力。Qi等[22]收集了13種人體組織的單細胞基因表達數據,通過Harmony整合數據,確定了三個具有與SARS-CoV-2受體血管緊張素轉化酶2最相似表達模式的候選基因,其可能是協助SARS-CoV-2入侵人體的共受體編碼基因,有助于制定相應的干預策略。Zhang等[23]分別用Seurat V3和LIGER整合了胃和回腸數據集、結腸數據集,綜合分析SARS-CoV-2受體血管緊張素轉化酶2和跨膜絲氨酸蛋白酶2的共表達模式,揭示了SARS-CoV-2在消化系統中的潛在傳播途徑。Seurat V3還被用于整合來自健康者和不同嚴重程度的新冠肺炎患者的細胞數據,繪制出新冠肺炎患者的肺泡灌洗液免疫細胞圖譜和免疫反應圖譜[24-25]。除此以外,Tran等[26]評估了14種方法在多批次、大數據集、不同測序技術、細胞類型差異大等數據情形下的整合效果,Harmony、LIGER和Seurat V3是總得分前三的方法。
2 單細胞多模態數據整合
2.1 單細胞多模態數據的整合方法
2019年,《自然-方法》雜志將單細胞多模態組學選為“2019年度技術”,揭示了單細胞領域聯合多個模態和組學進行測量分析的重要發展趨勢[27-28]。單細胞多模態技術在一次實驗中測量同一個細胞多個模態數據,表征細胞內不同層面的生物信息:DNA和RNA測序從底層獲取基因序列和表達信息,檢測基因動態變化,蛋白組和表觀組從表層反映基因表達調控機制和分子性狀的變化規律。多模態研究為后續的整合分析提供了豐富的數據,然而復雜的數據類型和數據特征也帶來了計算上的挑戰。例如,轉錄組數據通常是基因表達矩陣;DNA甲基化提供甲基化信號值矩陣,包含甲基化位點和甲基化水平信息;蛋白組提供蛋白表達矩陣;染色質可及性提供了開放區域的信息,稱為峰矩陣。對于這些描述同一細胞不同模態的數據,其整合的目標是揭示不同模態之間的關聯性,并且更詳細地描述細胞狀態和基因調控機制[29]。因此,一個關鍵問題就是如何將不同模態的信息聯系到一起。第一種策略是基于已有假設,將其他模態信息關聯到基因層面,進行基因級矩陣轉換[28]。例如,對于染色質可及性,可以將峰矩陣轉成基因活躍度矩陣,矩陣的行為基因、列為細胞,數值為基因活躍度得分,由跨越基因體和啟動子區域(通常上游2~3 kb)的峰讀段數相加得到[30];對于DNA甲基化數據,利用基因體的非CG甲基化推斷基因表達,生成基因級甲基化數據矩陣[31]。經過這樣的轉換,其他模態的基因級矩陣與scRNA-seq矩陣的整合等同于兩個不同來源scRNA-seq數據的整合,即本文第1.1節討論的情況。第二種策略是直接從模態數據的本質、特征、關系出發,輸出結果是模態信息的綜合體,用來揭示模態間的因果關系。根據不同方法模型的處理,結果以不同形式呈現。
傳統轉錄組測序領域早已有許多成熟有效的多組學整合算法和工具,雖然整合原理同樣適用于單細胞多模態數據,但還需要適當的調整和實驗驗證[32-33]。本文總結了適用于單細胞多模態數據整合的主要方法,包括整合的數據類型、主要算法、程序語言和參考文獻,如表2所示。

Seurat V3、Conos和LIGER應用了基因級矩陣轉換的策略,將單細胞染色質開放區轉座酶可及性測序(single-cell assay for transposase-accessible chromatin using sequencing,scATAC-seq)的峰矩陣轉換為基因活躍度矩陣,與scRNA-seq矩陣相整合,LIGER還實現了基因級甲基化數據與scRNA-seq數據的整合,原理如本文第1.1節所述[6, 12-13]。
聚類通常是單細胞數據下游分析的第一步,對于scRNA-seq和scATAC-seq都有相應的聚類方法識別細胞類型,而協同兩者信息能更好地解釋細胞類型。Duren等[34]從聚類的角度,提出耦合scRNA-seq和scATAC-seq兩個聚類過程的耦合非負矩陣分解(coupled nonnegative matrix factorization,Coupled NMF)模型,首先向模型中輸入兩個數據矩陣,然后求解耦合聚類的優化問題,輸出兩個數據的共同聚類結果以及對應的峰與基因配對。這一模型在反卷積與耦合聚類(de-convolution and coupled-clustering,DC3)模型中得到了升級,加入了群體細胞數據的反卷積化步驟,以獲得細胞亞群特異的數據,幫助改善單細胞耦合聚類的結果[35]。多組學因子分析(multi-omics factor analysis,MOFA)是一種因子分析模型,適用于單細胞DNA甲基化與RNA數據的整合分析[36]。向MOFA模型中輸入不同模態的數據矩陣,經過矩陣分解,結果輸出一組因子,這些因子代表了驅動不同模態數據異質性的因素;下游分析中,可以得到影響因子貢獻度的重要基因和甲基化信息,并對所有樣本進行可視化、聚類、富集分析。流行對齊表征實驗關系(manifold alignment to characterize experimental relationships,MATCHER)應用了流形學習的降維策略,通過高斯過程潛變量模型(Gaussian process latent variable model,GPLVM)將不同模態數據(基因表達、DNA甲基化、染色質可及性)映射到一維流形空間,每種模態數據都可以由一組偽時間值表示,并對偽時間值進行QN以實現統一度量,通過比較和分析該值可以研究多個模態之間的相關性和潛在調控機制[37]。
2.2 單細胞多模態數據整合的應用
有效的計算方法為充分挖掘不同模態的單細胞數據提供了機會,本節討論單細胞多模態數據整合方法的重要應用,包括揭示細胞異質性、發現模態間交互關系和推斷基因調控網絡等。Welch等[37]利用MATCHER研究小鼠胚胎干細胞和人類誘導多能干細胞的轉錄組和表觀基因組之間的相關性,結果揭示單細胞基因表達和DNA甲基化、染色質可及性、組蛋白修飾之間具有共同的變異模式,軌跡分析顯示了細胞從多能性到分化啟動狀態的變化。Argelaguet等[36]也分析了小鼠胚胎干細胞的轉錄組和甲基化數據,MOFA分析結果同樣揭示細胞分化過程中轉錄組和甲基化水平具有協同變化。Argelaguet等[38]應用三重組學測序技術獲取小鼠胚胎細胞的單細胞核小體、甲基化和轉錄組三重模態數據,通過MOFA整合分析揭示了原腸胚形成過程中具有譜系特異的表觀遺傳模式和標志基因,并在三個模態推斷因子中觀察到了細胞間的異質性。因此,MOFA從最初的轉錄組與甲基化二重模態分析拓展到了多重模態分析,應用范圍擴大。Lake等[39]通過訓練一個梯度提升回歸模型,在成人大腦細胞的轉錄組和表觀基因組之間建立映射,發現了驅動細胞異質性的調節元件和轉錄因子,為研究大腦的復雜過程提供了新的思路。LIGER被用于整合scRNA-seq和DNA甲基化數據,聯合定義了小鼠皮質細胞類型,揭示了細胞類型特異性的表觀基因組調控機制[13]。研究單個細胞不同模態之間的相關性可幫助研究人員深層次理解基因調控網絡,提高細胞類型分類的準確性和可解釋性,使全面探索細胞身份和行為成為可能。
3 總結與展望
單細胞數據的整合分析提供了更為全面且深入的見解,幫助從不同層面剖析細胞類型和狀態,深入挖掘調控機制。近年來,單細胞數據整合方法的開發與應用方面已經有了顯著成果。
多源scRNA-seq數據整合方法中,Seurat系列和MNN-Correct系列的方法假設數據集之間的差異完全源于技術性變化,適用于處理細胞類型相似的數據集。在處理細胞組成差異大的情況下,LIGER相對適用,因為iNMF可以保留數據集間差異,也可以識別相似之處。對于多數方法,基準數據和目標數據的選擇會影響整合效果;當整合兩個以上的數據集時需要迭代整合過程,整合次序也將影響結果。Scanorama應用全景拼接的原理,避免了輸入數據集的順序對整合效果的影響。Harmony對所有數據執行迭代聚類和校正,對數據集次序不敏感。Harmony和BBKNN運行速度快,均適用于處理大數據集。深度學習類方法在復雜數據中具有可擴展性和高性能,而對于量小的數據集,此類方法的性能較差,不利于網絡訓練。有些深度學習類方法只能實現有監督或半監督的整合,例如scGen需要輸入有細胞類型標簽的數據集。deepMNN通過最小化MNN對的細胞間距,促進網絡同時消除多個數據集的批次效應,因此能夠實現一步整合。此外,深度學習類方法使用圖形處理器來加速計算,同樣適用于處理大數據集。
單細胞多模態數據整合方法中,Seurat V3、LIGER和MATCHER能夠實現基因表達與DNA甲基化、染色質開放程度、組蛋白修飾等多個模態的整合分析,完整地建立起單細胞轉錄組和表觀基因組之間的調控關系。DC3還實現了單細胞與群體細胞數據的聯合分析,有效改善細胞的聚類結果。MOFA是相對流行的方法,從因子分析的角度解析數據異質性,使得分析結果也更具解釋性。
盡管目前的單細胞數據整合方法具有良好的應用價值,但仍存在以下幾個方面的挑戰。首先,合適的整合方法是有效整合分析的基礎,其選擇依賴于對不同整合方法的性能測試,所以形成成熟的評測基準或評測系統至關重要,能夠指導數據整合工作,減少方法本身對整合結果的影響。第二個挑戰在于整合方法通常基于不同的計算平臺開發,方法的推廣和使用受限于用戶對環境平臺的偏好、數據格式和預處理步驟等因素,因此未來需要向跨平臺分析、數據轉換共享、流程化運行的趨勢發展。第三個方面,單細胞數據規模日益擴大,以及適應“人類細胞圖譜計劃”(Human Cell Atlas,HCA)的需求,如何高效處理大規模數據集是亟待解決的問題,而大數據集恰好與深度學習的數據驅動性質相適應,這可能是未來可以繼續推進研究的方向。隨著新整合方法不斷突破和生物信息學的發展,單細胞數據的整合分析定會提供更全面的細胞視角,幫助解決生物學難題。
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
引言
細胞是生物體的基本組成單位,每個細胞都是獨一無二的。單細胞測序從單個細胞水平上獲取細胞信息,解決了傳統測序技術基于群體細胞測序而掩蓋細胞間異質性的難題,把研究精度從群體細胞精確到單個細胞,有助于深入探索細胞的異質性和生命活動。單細胞轉錄組測序(single-cell RNA sequencing,scRNA-seq)是當前應用最廣泛的單細胞測序技術,它對單個細胞的mRNA進行反轉錄、擴增和高通量測序,根據轉錄譜的相似性,可以分辨不同的細胞類型,甚至揭示新的細胞類型[1]。構建細胞圖譜是scRNA-seq技術發展的重要應用,是研究基礎生物學、衰老、疾病、治療反應的基本前提[2]。然而,單次scRNA-seq實驗難以捕獲一個組織或器官中所有的細胞和基因,獲得的數據無法提供完整的細胞信息。同時,測序深度和規模、生物噪聲和技術噪聲都將限制單個scRNA-seq數據集的可挖掘性。因此,整合分析多個來源的scRNA-seq數據能夠有效彌補單個數據集的局限,收集更完整的細胞類型和生物信息,助力生成全景細胞圖譜。多源scRNA-seq數據整合是指集成多個不同來源(實驗、平臺、樣本、組織等)的scRNA-seq數據集,校正系統差異使細胞基于細胞類型而聚集,生成高質量的大數據集,如圖1所示。

scRNA-seq迅速發展的同時,聚焦于其他模態的單細胞技術也在不斷地開發和應用中,人們可以獲取同一細胞的不同模態數據,如基因組測序、DNA甲基化、染色體構象、染色質可及性、蛋白質豐度等。目前,大多數單細胞技術只是單純研究細胞某一模態生物分子的變化,提供細胞異質性的局部景觀,不足以深入理解細胞狀態和功能。因此,整合分析多個模態的單細胞數據能夠從不同層次的模態特征解釋細胞所處的狀態、展現細胞內含的生物邏輯,這將彌補單一模態的片面性,使人們能夠從各種生物分子的組成、結構、功能等方面深刻了解和認識細胞。單細胞多模態數據整合是指分析單細胞多個模態組學的數據,發現模態間交互關系,挖掘基因調控機制,增強細胞類型的可解釋性,如圖1所示。
單細胞數據整合分為多源scRNA-seq數據整合和多模態數據整合,前者側重某一組織內細胞類型的完整性,后者更側重調控機制的挖掘,這兩者分別從橫向和縱向的角度提供細胞的全景圖和近景信息,以多視角、多視圖來解釋細胞的異質性和身份,為生物系統研究提供重要綜合性參考。近年來,研究人員開發了多種方法來實現單細胞數據的整合,作為數據分析的核心,發展創新且有效的數據整合方法為充分挖掘單細胞數據、提取有意義的生物學信息提供了強大助力。本文將對多源scRNA-seq數據整合和單細胞多模態數據整合的基本原理、方法和應用進行綜述,并根據方法的特色優勢和不足提出應用指南,并對未來的發展前景予以展望。
1 多源scRNA-seq數據整合
1.1 多源scRNA-seq數據的整合方法
單細胞轉錄組數據通常來自多個實驗,由于技術性因素(擴增方式、測序平臺、實驗人員等)、生物性因素(個體、處理、物種等)以及數據自身性質(細胞數量、測序深度)的差異,數據集在合并時會呈現明顯的批次效應,表達量具有系統偏差,這將混淆真正的生物邏輯變化。因此,多源scRNA-seq數據整合的目標就是校正系統偏差,使細胞基于真實的生物類型或狀態聚集在一起,而不受來源的影響[3]。
scRNA-seq數據通常以基因表達矩陣的形式呈現,矩陣的行為基因、列為細胞,因此scRNA-seq數據整合本質上就是表達矩陣的整合。在整合前,一般會對每個數據集執行相同的預處理,包括質控、歸一化、標準化、特征選擇,選取一定數量的高變異基因(highly variable genes,HVGs)。然后,通常是取每個數據集HVGs的交集用于整合,使得基因數量保持一致。整合時,為了統一度量細胞間的距離,需要將待整合的數據集放置在同一個空間下。由于在高維的基因表達空間下計算復雜,研究人員通常使用降維策略將所有數據映射到一個共享的低維空間,前提是所有數據集至少共享一種相同細胞類型,并且默認假設來自不同數據集但具有相同細胞類型或生物狀態的細胞互相靠近,這些細胞對反映了不同數據集間的對應關系[4]。本文將多源scRNA-seq數據整合方法分為配準和圖聚類兩種策略。配準類方法的核心思想是在共享空間下,以一個數據集作為基準,另一個數據集作為目標,根據兩個數據集相似細胞對間的距離,以及相似細胞對與目標細胞的關聯程度,計算目標細胞特異的校正向量,指導目標數據集向基準數據集配準;或者,各個數據集均向公共的基準尺度(例如質心)配準,如圖2所示。此類方法結果可能輸出一個校正的綜合表達矩陣,也可能輸出校正后的低維嵌入,即配準后每個細胞在共享低維空間中的坐標。圖聚類方法的核心思想是針對單細胞進行圖的聚類分析,將不同數據集相似的細胞聚類在一起,如圖2所示。在共享空間中,以細胞為節點,連接節點形成邊,基于細胞間距離為邊分配權值,構建加權聯合圖。接著,利用社區發現算法對圖進行聚類,將來源不同但密切連接的細胞聚類在一起,實現整合,結果通常以圖的形式輸出。有的方法同時運用了配準和圖聚類兩種策略,在構建聯合圖后,還對數據集進行了配準。當輸出結果為一個校正的基因表達矩陣時,可以進行廣泛的下游分析;校正低維嵌入和聯合圖可用于可視化、聚類和擬時序分析,由于這兩種結果沒有改變原始表達值,因此不能直接用于差異表達分析、基因調控網絡等基因層面的分析。可以使用批次感知的線性混合效應模型進行差異表達分析,或者對未校正的基因表達矩陣進行單獨分析和共同比較[5-6]。此外,除了上述配準類和圖聚類的整合方法,還有基于深度學習的整合方法。本文總結了近年來主要的多源scRNA-seq數據整合方法,包括整合策略、應用的主要算法、輸出結果、程序語言和參考文獻,如表1所示。


配準類方法中,多集典型相關分析(multi-set canonical correlation analysis,MultiCCA)是最早被報道的經典方法之一,支持在單細胞基因組學R工具包Seurat 2.0(Satija實驗室,美國)中運行使用[7]。MultiCCA首先利用典型相關分析(canonical correlation analysis,CCA)將兩個數據集映射到一個低維空間,接著利用動態時間規整(dynamic time warping,DTW)將兩個數據集配準到一個共同的基準尺度,輸出對齊的低維嵌入。同期,Haghverdi等[4]提出了以相互最近鄰(mutual nearest neighbors,MNN)為核心的MNN校正(MNN-Correct),對于基準數據集的每個細胞,確定在目標數據集中k個最近鄰(k-nearest neighbors,KNN),對于目標數據集也執行相同的操作;當一對細胞包含在彼此的k個近鄰中,則視為一對MNN,代表不同數據集中具有相同細胞類型或狀態的細胞對。MNN-Correct在余弦歸一化的表達數據上計算細胞間的歐氏距離,得到一組MNN,MNN對的距離差值可以估算批次效應的大小,根據這些MNN對差異向量的加權平均值計算細胞特異的校正向量,將目標數據集向基準數據集配準。由于MNN-Correct在高維空間中運算,計算量巨大,快速MNN(fastMNN)作為MNN-Correct的新版本,增加了主成分分析(principal component analysis,PCA)降維步驟,運行速度提升。
受MNN的啟發,在修拉(Seurat)版本三(Seurat V3)、單細胞合并(scMerge)、全景(Scanorama)中也引入了MNN的思想[6, 8-9]。Seurat V3在CCA定義的低維空間中識別MNN,并取名為錨點。為了確認錨點的可靠性,Seurat V3對錨點進行了過濾和評分:首先,返回高維的表達空間查看錨點的KNN條件是否同樣滿足,排除表達譜差異很大的錯誤錨點;然后,根據每對錨點細胞的鄰域重疊率為每個錨點打分,在后續計算中降低低分數錨點的權重,以提高結果的魯棒性和準確率。scMerge利用伽馬-高斯混合模型識別一組穩定表達基因(stably expressed genes,SEGs);在PCA空間下識別不同數據集的相互最近集群,其中一定比例的最接近集群質心的細胞集稱為偽重復,即不同數據集的同一類細胞;利用三步刪除不必要變異模型(remove unwanted variation, 3-step,RUVⅢ)計算SEGs在偽重復中的表達差值,刪除來源影響并配準數據集[10]。Scanorama將MNN的識別從兩個數據集推廣至多個數據集中,對于每個數據集的細胞,KNN的搜尋范圍擴展為其余數據集的所有細胞,從而獲取所有數據集中轉錄譜相似的MNN匹配,通過這些匹配將數據集拼接起來形成一張“全景圖”。類似于MNN-Correct的校正計算,每個細胞的校正向量由其近鄰范圍內MNN對差異向量的加權平均得到,然后根據MNN細胞的占比確定每個數據集的合并順序,依次合并到全景圖中。Scanorama使用隨機奇異值分解(randomized singular value decomposition,rSVD)進行降維,基于局部敏感哈希算法搜索近似的KNN,這大大加快了運行速度,可靈活應用于大數據集。鴻蒙(Harmony)是一種迭代聚類的整合方法,將所有數據集的細胞向聚類質心進行配準。在PCA空間中,Harmony使用k均值軟聚類將相似細胞聚類在一起,并且最大化每個集群內的數據集多樣性;在每個集群中,根據集群質心和數據集特異質心,計算細胞特異的校正因子來校正每個細胞;迭代運行以上兩個過程,相當于迭代消除數據集來源對細胞聚類分配的影響,直到細胞的低維嵌入收斂到精確值,即完成整合,輸出校正的低維嵌入[5]。
批次平衡k近鄰(batch balanced k nearest neighbours,BBKNN)、樣本網絡聚類法(clustering on network of samples,Conos)和基因組實驗關系關聯推斷(linked inference of genomic experimental relationships,LIGER)是圖聚類的整合方法[11-13]。BBKNN首先在PCA空間中識別每個細胞在數據集內和不同數據集間的KNN并連接起來,然后按照一致流形近似和投影(uniform manifold approximation and projection,UMAP)的方法將近鄰距離轉換為連接分數,為每個連接賦予相應的權重,輸出加權聯合圖用于聚類。Conos在低維空間中應用旋轉空間和近鄰(KNN和MNN)的策略,將數據集兩兩比較,建立數據集間和數據集內的邊,用于構造聯合圖,其中根據細胞間相似性確定邊的權重,并且降低數據集內的邊相對于數據集間的邊在圖中的貢獻;然后使用社區發現算法來獲得聚類。LIGER應用綜合非負矩陣分解(integrative non-negative matrix factorization,iNMF)進行降維,識別數據集特異和共享的兩組因子來定義每個細胞的低維嵌入[14]。在因子空間下,計算細胞在數據集內和數據集間的KNN,并連接成對的相似細胞,即具有相似因子載荷模式的細胞,從而構建一個共享因子鄰域圖,用于社區發現算法聚類。聚類后,LIGER還對每個聯合集群的因子載荷進行分位數歸一化(quantiles normalization,QN),輸出校正的低維嵌入。
近年來,研究人員將深度學習技術引入生物學領域,幫助處理生物數據資料,解決生物信息學問題,在數據整合方面也不斷有新的進展。深度學習類方法的核心思想是利用深度網絡學習數據結構和配準關系,處理優化問題,以克服批次效應。最大均值差異殘差網絡(maximum mean discrepancy and residual nets,MMD-ResNet)應用殘差神經網絡模型,以最小化基準數據集和目標數據集分布的最大均值差為目標,學習兩個數據集之間的映射關系,使得兩者在分布上相似[15]。深度MNN(deepMNN)也應用了殘差神經網絡,該方法利用PCA空間中識別的MNN對訓練網絡,并以最小化MNN對中的細胞間距、使網絡的輸出與輸入相似為目標,指導網絡學習從而消除數據集間的批次效應[16]。單細胞基因表達數據模型(scGen)結合了變分自編碼器(variational auto-encoder,VAE)模型和潛在空間向量算法,只適用于已知細胞類型的數據整合。該方法的過程是輸入標記細胞類型的數據,經過編碼器映射到一個潛在空間中,在此空間下計算不同數據集中相同細胞類型的細胞間的差異向量,然后向其中一個數據集進行配準,再經過解碼器映射回原本的高維表達空間,輸出一個校正的基因表達矩陣[17]。Wang等[18]利用自編碼器和生成式對抗網絡(generative adversarial network,GAN)構建了對抗式配對風格遷移網絡集成多源單細胞數據集(integration of multiple single-cell datasets by adversarial paired-style transfer networks,iMAP)模型,該模型分兩個步驟進行數據整合,首先以保留生物變異、去除批次影響為優化目標,在自編碼器中重建細胞表達譜,第二步在識別的MNN上訓練GAN以正確匹配共享細胞類型的分布。其中,iMAP還引入了隨機游走的策略來擴展MNN列表,從而更好地覆蓋共享細胞類型的全部分布,有助于GAN的訓練。
1.2 多源scRNA-seq數據整合的應用
許多整合方法現已應用于scRNA-seq數據分析中,去除批次效應,鑒定新的細胞類型,繪制單細胞圖譜,并在腫瘤、腦科學、病毒等研究領域取得了一定成果。例如,Zhang等[19]利用Harmony整合了一位肝癌患者多個組織的、兩種測序技術獲得的免疫細胞,綜合不同測序技術的優勢能夠繪制出更高分辨率的肝癌免疫圖譜,通過聯合分析還識別出了罕見的細胞群,對肝癌的免疫治療具有指導意義。Liao等[20]利用Harmony和fastMNN整合來自三個不同捐贈者的腎臟組織單細胞轉錄組數據,鑒定出三個近端小管細胞的亞型和兩個集合管細胞的亞型,為腎小管細胞的精確分類和相關疾病研究提供了重要的參考。Trujillo等[21]建立了一個皮層類器官模型用于模擬人腦早期發育,用Seurat V3整合四個培養時間點下所測序的類器官單細胞數據,經細胞注釋,類器官發育過程中的細胞類型變化證明該模型具有功能性。這些整合方法在新型冠狀病毒(severe acute respiratory syndrome coronavirus 2,SARS-CoV-2)的研究中也提供了有效助力。Qi等[22]收集了13種人體組織的單細胞基因表達數據,通過Harmony整合數據,確定了三個具有與SARS-CoV-2受體血管緊張素轉化酶2最相似表達模式的候選基因,其可能是協助SARS-CoV-2入侵人體的共受體編碼基因,有助于制定相應的干預策略。Zhang等[23]分別用Seurat V3和LIGER整合了胃和回腸數據集、結腸數據集,綜合分析SARS-CoV-2受體血管緊張素轉化酶2和跨膜絲氨酸蛋白酶2的共表達模式,揭示了SARS-CoV-2在消化系統中的潛在傳播途徑。Seurat V3還被用于整合來自健康者和不同嚴重程度的新冠肺炎患者的細胞數據,繪制出新冠肺炎患者的肺泡灌洗液免疫細胞圖譜和免疫反應圖譜[24-25]。除此以外,Tran等[26]評估了14種方法在多批次、大數據集、不同測序技術、細胞類型差異大等數據情形下的整合效果,Harmony、LIGER和Seurat V3是總得分前三的方法。
2 單細胞多模態數據整合
2.1 單細胞多模態數據的整合方法
2019年,《自然-方法》雜志將單細胞多模態組學選為“2019年度技術”,揭示了單細胞領域聯合多個模態和組學進行測量分析的重要發展趨勢[27-28]。單細胞多模態技術在一次實驗中測量同一個細胞多個模態數據,表征細胞內不同層面的生物信息:DNA和RNA測序從底層獲取基因序列和表達信息,檢測基因動態變化,蛋白組和表觀組從表層反映基因表達調控機制和分子性狀的變化規律。多模態研究為后續的整合分析提供了豐富的數據,然而復雜的數據類型和數據特征也帶來了計算上的挑戰。例如,轉錄組數據通常是基因表達矩陣;DNA甲基化提供甲基化信號值矩陣,包含甲基化位點和甲基化水平信息;蛋白組提供蛋白表達矩陣;染色質可及性提供了開放區域的信息,稱為峰矩陣。對于這些描述同一細胞不同模態的數據,其整合的目標是揭示不同模態之間的關聯性,并且更詳細地描述細胞狀態和基因調控機制[29]。因此,一個關鍵問題就是如何將不同模態的信息聯系到一起。第一種策略是基于已有假設,將其他模態信息關聯到基因層面,進行基因級矩陣轉換[28]。例如,對于染色質可及性,可以將峰矩陣轉成基因活躍度矩陣,矩陣的行為基因、列為細胞,數值為基因活躍度得分,由跨越基因體和啟動子區域(通常上游2~3 kb)的峰讀段數相加得到[30];對于DNA甲基化數據,利用基因體的非CG甲基化推斷基因表達,生成基因級甲基化數據矩陣[31]。經過這樣的轉換,其他模態的基因級矩陣與scRNA-seq矩陣的整合等同于兩個不同來源scRNA-seq數據的整合,即本文第1.1節討論的情況。第二種策略是直接從模態數據的本質、特征、關系出發,輸出結果是模態信息的綜合體,用來揭示模態間的因果關系。根據不同方法模型的處理,結果以不同形式呈現。
傳統轉錄組測序領域早已有許多成熟有效的多組學整合算法和工具,雖然整合原理同樣適用于單細胞多模態數據,但還需要適當的調整和實驗驗證[32-33]。本文總結了適用于單細胞多模態數據整合的主要方法,包括整合的數據類型、主要算法、程序語言和參考文獻,如表2所示。

Seurat V3、Conos和LIGER應用了基因級矩陣轉換的策略,將單細胞染色質開放區轉座酶可及性測序(single-cell assay for transposase-accessible chromatin using sequencing,scATAC-seq)的峰矩陣轉換為基因活躍度矩陣,與scRNA-seq矩陣相整合,LIGER還實現了基因級甲基化數據與scRNA-seq數據的整合,原理如本文第1.1節所述[6, 12-13]。
聚類通常是單細胞數據下游分析的第一步,對于scRNA-seq和scATAC-seq都有相應的聚類方法識別細胞類型,而協同兩者信息能更好地解釋細胞類型。Duren等[34]從聚類的角度,提出耦合scRNA-seq和scATAC-seq兩個聚類過程的耦合非負矩陣分解(coupled nonnegative matrix factorization,Coupled NMF)模型,首先向模型中輸入兩個數據矩陣,然后求解耦合聚類的優化問題,輸出兩個數據的共同聚類結果以及對應的峰與基因配對。這一模型在反卷積與耦合聚類(de-convolution and coupled-clustering,DC3)模型中得到了升級,加入了群體細胞數據的反卷積化步驟,以獲得細胞亞群特異的數據,幫助改善單細胞耦合聚類的結果[35]。多組學因子分析(multi-omics factor analysis,MOFA)是一種因子分析模型,適用于單細胞DNA甲基化與RNA數據的整合分析[36]。向MOFA模型中輸入不同模態的數據矩陣,經過矩陣分解,結果輸出一組因子,這些因子代表了驅動不同模態數據異質性的因素;下游分析中,可以得到影響因子貢獻度的重要基因和甲基化信息,并對所有樣本進行可視化、聚類、富集分析。流行對齊表征實驗關系(manifold alignment to characterize experimental relationships,MATCHER)應用了流形學習的降維策略,通過高斯過程潛變量模型(Gaussian process latent variable model,GPLVM)將不同模態數據(基因表達、DNA甲基化、染色質可及性)映射到一維流形空間,每種模態數據都可以由一組偽時間值表示,并對偽時間值進行QN以實現統一度量,通過比較和分析該值可以研究多個模態之間的相關性和潛在調控機制[37]。
2.2 單細胞多模態數據整合的應用
有效的計算方法為充分挖掘不同模態的單細胞數據提供了機會,本節討論單細胞多模態數據整合方法的重要應用,包括揭示細胞異質性、發現模態間交互關系和推斷基因調控網絡等。Welch等[37]利用MATCHER研究小鼠胚胎干細胞和人類誘導多能干細胞的轉錄組和表觀基因組之間的相關性,結果揭示單細胞基因表達和DNA甲基化、染色質可及性、組蛋白修飾之間具有共同的變異模式,軌跡分析顯示了細胞從多能性到分化啟動狀態的變化。Argelaguet等[36]也分析了小鼠胚胎干細胞的轉錄組和甲基化數據,MOFA分析結果同樣揭示細胞分化過程中轉錄組和甲基化水平具有協同變化。Argelaguet等[38]應用三重組學測序技術獲取小鼠胚胎細胞的單細胞核小體、甲基化和轉錄組三重模態數據,通過MOFA整合分析揭示了原腸胚形成過程中具有譜系特異的表觀遺傳模式和標志基因,并在三個模態推斷因子中觀察到了細胞間的異質性。因此,MOFA從最初的轉錄組與甲基化二重模態分析拓展到了多重模態分析,應用范圍擴大。Lake等[39]通過訓練一個梯度提升回歸模型,在成人大腦細胞的轉錄組和表觀基因組之間建立映射,發現了驅動細胞異質性的調節元件和轉錄因子,為研究大腦的復雜過程提供了新的思路。LIGER被用于整合scRNA-seq和DNA甲基化數據,聯合定義了小鼠皮質細胞類型,揭示了細胞類型特異性的表觀基因組調控機制[13]。研究單個細胞不同模態之間的相關性可幫助研究人員深層次理解基因調控網絡,提高細胞類型分類的準確性和可解釋性,使全面探索細胞身份和行為成為可能。
3 總結與展望
單細胞數據的整合分析提供了更為全面且深入的見解,幫助從不同層面剖析細胞類型和狀態,深入挖掘調控機制。近年來,單細胞數據整合方法的開發與應用方面已經有了顯著成果。
多源scRNA-seq數據整合方法中,Seurat系列和MNN-Correct系列的方法假設數據集之間的差異完全源于技術性變化,適用于處理細胞類型相似的數據集。在處理細胞組成差異大的情況下,LIGER相對適用,因為iNMF可以保留數據集間差異,也可以識別相似之處。對于多數方法,基準數據和目標數據的選擇會影響整合效果;當整合兩個以上的數據集時需要迭代整合過程,整合次序也將影響結果。Scanorama應用全景拼接的原理,避免了輸入數據集的順序對整合效果的影響。Harmony對所有數據執行迭代聚類和校正,對數據集次序不敏感。Harmony和BBKNN運行速度快,均適用于處理大數據集。深度學習類方法在復雜數據中具有可擴展性和高性能,而對于量小的數據集,此類方法的性能較差,不利于網絡訓練。有些深度學習類方法只能實現有監督或半監督的整合,例如scGen需要輸入有細胞類型標簽的數據集。deepMNN通過最小化MNN對的細胞間距,促進網絡同時消除多個數據集的批次效應,因此能夠實現一步整合。此外,深度學習類方法使用圖形處理器來加速計算,同樣適用于處理大數據集。
單細胞多模態數據整合方法中,Seurat V3、LIGER和MATCHER能夠實現基因表達與DNA甲基化、染色質開放程度、組蛋白修飾等多個模態的整合分析,完整地建立起單細胞轉錄組和表觀基因組之間的調控關系。DC3還實現了單細胞與群體細胞數據的聯合分析,有效改善細胞的聚類結果。MOFA是相對流行的方法,從因子分析的角度解析數據異質性,使得分析結果也更具解釋性。
盡管目前的單細胞數據整合方法具有良好的應用價值,但仍存在以下幾個方面的挑戰。首先,合適的整合方法是有效整合分析的基礎,其選擇依賴于對不同整合方法的性能測試,所以形成成熟的評測基準或評測系統至關重要,能夠指導數據整合工作,減少方法本身對整合結果的影響。第二個挑戰在于整合方法通常基于不同的計算平臺開發,方法的推廣和使用受限于用戶對環境平臺的偏好、數據格式和預處理步驟等因素,因此未來需要向跨平臺分析、數據轉換共享、流程化運行的趨勢發展。第三個方面,單細胞數據規模日益擴大,以及適應“人類細胞圖譜計劃”(Human Cell Atlas,HCA)的需求,如何高效處理大規模數據集是亟待解決的問題,而大數據集恰好與深度學習的數據驅動性質相適應,這可能是未來可以繼續推進研究的方向。隨著新整合方法不斷突破和生物信息學的發展,單細胞數據的整合分析定會提供更全面的細胞視角,幫助解決生物學難題。
利益沖突聲明:本文全體作者均聲明不存在利益沖突。