單細胞轉錄組測序(scRNA-seq)可以在單細胞精度下解析組織中細胞的表達特征,使得研究人員能以更高的分辨率定量群體內的細胞異質性,揭示潛在的異質細胞群體和復雜組織的動態。然而scRNA-seq數據中存在的大量技術零值,將對下游的細胞聚類、差異基因、細胞注釋、擬時序等分析造成影響,阻礙了對有意義的生物學信號的發現。利用細胞與細胞、基因與基因之間潛在的關聯性,通過已觀測到的數據來對技術零值進行填補是解決這個問題的主要思路。基于此,本文綜述了scRNA-seq數據中填補技術零值的基本方法,并討論了現有方法的優勢和不足,最后對方法的使用和開發進行了推薦和展望。
引用本文: 姜超, 胡龍飛, 徐春祥, 葛芹玉, 趙祥偉. 單細胞轉錄組數據中dropout的填補方法. 生物醫學工程學雜志, 2023, 40(4): 778-783, 791. doi: 10.7507/1001-5515.202301009 復制
0 引言
單細胞轉錄組測序(single-cell RNA sequencing,scRNA-seq)是將分離的單個細胞的轉錄組RNA反轉錄為cDNA,在cDNA上添加細胞標簽(Barcode)和特異性分子標簽(unique molecular indentifier,UMI),然后利用高通量測序技術進行cDNA測序,從而獲得特定器官或組織在某一狀態下的轉錄本的測序技術。該方法克服了傳統基于整體組織塊RNA(Bulk RNA)測序中無法解析細胞異質性的問題,使得研究人員能夠在單細胞分辨率下檢測基因表達信息,從而能更精確地從細胞占比、細胞特異性基因表達等層面去解析組織的狀態與RNA的關系。
scRNA-seq自2008年發表以來不斷發展[1],涌現出許多不同的方法。這些方法之間的差異主要在于對原始轉錄本的標記和生成測序文庫的方式不同,這也導致了不同的檢測效率。基于板的技術,如SMART-seq2[2],在單個實驗中可以捕獲數百個細胞,每個細胞測序的數據量較高,通常能獲得全長cDNA的信息,是一種低通量的方法。基于磁珠或微珠的技術,如10X Chromium[3],通量可以達到數千甚至數萬個細胞,使用Barcode標記細胞從而在測序數據中區分細胞來源,使用UMI對每個細胞的轉錄本進行無偏定量。該類方法通量雖高但通常不會獲得轉錄本全長的測序信息。
隨著scRNA-seq技術的發展,它在胚胎發育[4]、神經元多樣性[5]等生物學領域的應用越來越廣泛,但每個細胞檢測到的基因數量仍然受到技術限制[6]。在測序實驗中,因為單個細胞中所含mRNA非常微量,反轉錄成cDNA的過程中大量的mRNA丟失,只有少量的cDNA被擴增。因此,擴增偏倚、低RNA捕獲率等技術因素,導致scRNA-seq實驗存在大量假0值,稱為dropout現象,即一些細胞在測序過程中檢測不到真實表達的轉錄本[7]。這將對細胞聚類、差異表達基因、擬時序分析等造成影響。如何有效地降低數據中的技術噪聲,從而更充分地挖掘有意義的生物信號,已成為當前scRNA-seq數據算法研究中的一個熱點問題。
近年來,不同學者開發了多種算法來填補表達矩陣中的dropout。我們將這些方法歸為四類,分別是基于模型、基于平滑、基于矩陣重構、基于深度學習的方法。本文就當前國內外針對scRNA-seq數據中dropout的填補方法、原理和優缺點進行綜述,并對未來的發展予以展望,以期為方法開發和應用提供參考。
1 基于模型的方法
基于模型的方法的基本思想是將每個細胞中每個基因的表達值看成隨機變量并假設其分布,通過借用內部或外部信息來估計分布的參數(例如均數)以用于填補。常用的一些分布假設包括負二項分布、Gamma-Normal混合分布等。還有一些方法雖然會假設表達值的概率分布,但僅限于對dropout概率的計算,并未直接用分布參數的估計值進行填補,故未將其分入此類。
scRNA-seq數據分析通常以表達矩陣作為輸入。首先會進行質控、歸一化、選取高變異基因等預處理步驟。之后再進行降維、細胞聚類、尋找差異基因、擬時序分析等分析流程。
基于模型的方法在解決dropout問題時有兩種策略。一種是在數據歸一化、降維或聚類的過程中考慮dropout的影響;另一種是開發算法對數據進行填補,然后用填補后的數據進行分析。例如,Tang等[8]提出的bayNorm,采用貝葉斯的方法進行降噪,令真實表達的后驗分布由觀察到的轉錄本的似然以及每個基因表達值的先驗組成,假設潛在的真實基因表達水平的先驗服從負二項分布,通過參數的局部或全局估計,最后以細胞中每個基因真實表達的后驗分布的均值作為填補值。其他方法的概述見表1[7-10]。

2 基于平滑的方法
基于平滑的方法的主要思想是借用相似細胞或基因的信息來進行填補。其主要計算思路為:首先對表達矩陣進行主成分分析降維以減少矩陣的稀疏性,然后計算相似性指標構建細胞或基因的相似性矩陣,再在相似性矩陣中通過K近鄰(k nearest neighbors,KNN)等算法選取最接近的K個對象構建親和矩陣,最后對最接近的K個對象中的表達信息進行平均、加權平均、回歸等處理來填補當前對象中的dropout。該類方法主要有兩個重要關鍵點:① 準確地衡量細胞間或基因間的相似性。常用的相似性指標包括余弦距離、Pearson相關系數、Spearman相關系數等。② 有效地整合最接近的K個細胞或基因的表達信息。不同的研究者在這兩個方面進行了不同的創新。根據借用信息方式的不同這些方法可以分為借用相似細胞、相似基因以及同時借用相似細胞和基因的信息三種策略。例如,Li等[11]提出了scImpute方法,首先將細胞聚類到不同的亞群中,然后僅使用同一亞群中的細胞進行填補。先通過Gamma-Normal混合模型識別受dropout事件影響的值,然后根據不太可能受影響的基因選擇其他類似細胞中相同基因的信息通過LASSO模型來填補一個細胞中的dropout值。Zand等[12]提出的netImpute通過Pearson相關系數構建基因相似矩陣,將KNN算法作用于相似矩陣建立共表達網絡,然后利用重啟隨機游走算法從共表達網絡中得到轉移概率矩陣,最終對共表達網絡中基因本身的表達和相鄰基因的表達進行加權平均,以轉移概率為權重。其他各種方法的概述見表2[11-21]。

3 基于矩陣重構的方法
基于矩陣重構的方法的主要思想是利用scRNA-seq表達矩陣的非負性、低秩性和稀疏性的特點,將dropout的填補看成是低秩矩陣補全的問題,通過對表達矩陣進行分解將它投影到低維潛在空間,然后通過構建不同的目標函數在低秩性、非負性等不同信息的約束下重構表達矩陣以達到填補dropout的目的。常用的矩陣分解方法包括奇異值分解(singular value decomposition,SVD)和非負矩陣分解(non-negative matrix factorization,NMF)。SVD是一種常用的矩陣分解技術,可以將高維矩陣降維成低維矩陣,找出其中所隱含的“模式”。設X是一個m × n(m > n)的矩陣,通過SVD可以分解為U、S、V三個矩陣,使得X = U × S × VT。其中U是一個m × m的正交矩陣,V是一個n × n的正交矩陣。S是一個m × n的對角矩陣,其對角線上的元素大于0且按照從大到小的順序排列,稱為X的奇異值。通過設定標準可以選取前k大的奇異值用于矩陣的恢復或對S矩陣進行其他修改。R是恢復后的矩陣,它與X的奇異值非常相近。示意圖見圖1。

NMF是在矩陣中所有元素均為非負數的約束條件下進行矩陣分解的方法,基本思想為:給定一個m × n(m > n)的非負矩陣X,通過NMF能夠找到兩個低秩的非負矩陣W和H,使得W和H的乘積近似等于矩陣X中的值,即Xm × n ≈ Wm × rHr × n。其中W為基矩陣,H為系數矩陣。最常用的基于歐式距離的目標函數為:。
在此類方法中,常用交替方向乘子法(alternating direction method of multipliers,ADMM)、核范數最小化(nuclear norm minimization,NNM)等算法來求解符合約束條件的分解矩陣。不同的方法主要通過設計不同的目標函數或設置不同的約束條件來求解分解矩陣。例如,Peng等[22]提出了SCRABBLE,該方法通過借用相同組織Bulk RNA的數據作為約束條件來進行填補。其目標函數包括三項內容:第一項要求非零表達的基因的估計值盡可能接近其原始值,從而最大限度地減少對表達基因的不必要修改;第二項要求填補后的矩陣的秩盡可能小,目的是希望在給定的組織樣本中只有有限數量的細胞類型;第三項要求填補后的平均基因表達量與Bulk RNA數據的平均基因表達量之間盡可能一致。該方法通過ADMM來優化目標函數以求解重構的矩陣。其他各種方法的概述見表3[22-30]。

4 基于深度學習的方法
隨著深度學習的發展,它在數據填補領域也有越來越多的研究,憑借著對非線性關系的提取能力,許多學者也將它應用在dropout的填補問題上。該類方法主要使用自編碼器的學習框架。此外,近年來,基于圖論的方法也逐漸成為另一個重要的研究方向。
自編碼器是一種無監督的神經網絡模型,它可以學習輸入數據的隱含特征,稱為編碼。同時利用學習到的隱含特征再重構回原始輸入數據,稱為解碼。通過最小化重構誤差函數引導模型學習潛在的參數。其中均方誤差(mean squared error,MSE)是最常用的量化指標。
自編碼器用于dropout填補的基本思想是將含有dropout的表達矩陣壓縮到潛在低維空間,然后在低維空間上進行矯正,最后通過解碼器重構表達矩陣。不同的學者設計了不同的重構誤差損失函數或訓練過程,以迫使模型學習不同的信息。例如,Chi等[31]提出的scSDAEs,采用堆疊自編碼器,即把前一個自編碼器的隱藏層作為下一個自編碼器的輸入,以此逐層編碼和解碼進行降噪。其損失函數包括:最小化非0值的重構誤差以及對0值的L1稀疏懲罰,這樣可以有效約束重構矩陣中填補值的稀疏性。Chen等[32]提出的Bubble,借用了相同組織的Bulk RNA數據,其損失函數除了包括重構矩陣與原矩陣的MSE外還增加了基因合計結果與Bulk RNA數據的MSE,這樣約束了基因表達的整體分布。在設計損失函數時,除了可以衡量原始數據與重構數據之間的MSE外,另一類方法是基于分布的似然,例如DCA[33]等。
在深度學習的方法中,除了以表達矩陣的形式輸入模型外,最近,越來越多的方法開始使用圖論的方法將表達矩陣轉換成圖的數據結構輸入模型。在圖中可將細胞(或基因)的表達值作為頂點,細胞與細胞(或基因與基因)之間的相關關系作為邊。相比表達矩陣的數據結構,基于圖的數據結構可以同時利用細胞(或基因)的表達信息以及它們之間的相關性。例如,Wu等[34]提出的GE-Impute將原始矩陣轉變為細胞圖,通過偏隨機游走和skip-gram模型將所有細胞嵌入低維向量,通過學習嵌入的特征表示重建細胞圖,最終將細胞圖中所有相鄰表達值的均數作為填補值。Wu等[35]提出的G2S3將原始表達矩陣轉換為加權基因圖,通過最優化算法搜索獲得加權鄰接矩陣,然后通過在圖上進行隨機游走獲得隨機游走矩陣,填補的矩陣即為在圖上進行t步隨機游走得到。各種方法的概述見表4[31-46]。

5 總結與展望
scRNA-seq數據dropout的填補算法,消除了測序方法造成的假零值噪聲,一定程度上為更充分地挖掘有意義的生物信號提供了幫助。近年來,針對dropout的填補算法已積累了豐富的成果,但是不同方法又具有各自的局限性。
基于模型的方法往往假設表達數據服從某種分布,如果數據分布接近這種假設,則分布的先驗信息將有助于提高填補性能。但分布的假設缺乏一定的共識,并非對所有數據集都適用。此外,由于我們對技術噪聲和偏差的可能來源也缺乏了解,因此在對數據的參數化建模過程中可能忽略某些重要變異來源。在計算方面,該類方法常常需要采用EM等算法來進行參數估計,在處理大規模數據時就不具有時間優勢了。基于平滑的方法通常需要先對數據進行聚類,但是我們往往并不能提前知曉聚類數等先驗信息,在有大量缺失的情況下聚類的準確性也無法保障。基于矩陣重構的方法雖然不對數據的分布進行假設,通過將分解后的矩陣相乘從而重構表達矩陣,但是矩陣的分解也依賴于矩陣的低秩假設。此外,無論基于模型、基于平滑還是基于矩陣重構的方法主要采用的都是線性的方式來提取表達矩陣中的信息,對于非線性特征的提取能力尚有欠缺。而基于深度學習的方法通過激活函數或卷積的方式可以更好地提取數據中的非線性信息,并且也無需對數據的分布或低秩性進行假設。隨著數據規模的快速增長,可以用于訓練的數據也越來越豐富,這也更有利于發揮深度學習提取數據內在特征的優勢,但是深度學習的方法也存在可解釋性和超參數優化等問題。
為了綜合測評不同方法的性能,有學者[47-48]在大量的真實數據和模擬數據中測試了不同方法在多種分析任務中的性能。結果顯示,TRANSLATE[38]在計算時間方面的性能最好;SCC[10]、G2S3[35]等內存效率最高;AutoImpute[36]、GraphSCI[44]、scImpute[11]、TRANSLATE[38]、MAGIC[13]等隨著數據集中細胞數的增加而表現出較高的可擴展性。基于對時間、內存、可擴展性以及在不同分析任務中的綜合比較,MAGIC[13]、SAVER[9]等提供了最佳的整體性能。
通過對現有方法的綜述,我們認為在開發新方法的時候需要同時考慮以下幾個問題:① 填補的方法能夠識別真零值和假零值,并且僅對假零值進行填補而保留真實的生物零值。② 填補方法應減少對已觀測數據的改變,避免引入新的噪聲。③ 借用外部或先驗信息將有助于提高填補的性能。④ 填補的方法應具有規模可拓展性,能夠在盡可能少地消耗內存和時間的情況下,提高下游分析的性能。在未來我們期待會有更有效和更高效的方法被開發出來,以幫助我們更好地挖掘scRNA-seq數據中的信息,解決有意義的生物學問題。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:趙祥偉構思了想法;趙祥偉、葛芹玉、徐春祥設計并指導了文獻研究、解釋、數據收集、圖表繪制和論文修改;姜超、胡龍飛撰寫了論文。
0 引言
單細胞轉錄組測序(single-cell RNA sequencing,scRNA-seq)是將分離的單個細胞的轉錄組RNA反轉錄為cDNA,在cDNA上添加細胞標簽(Barcode)和特異性分子標簽(unique molecular indentifier,UMI),然后利用高通量測序技術進行cDNA測序,從而獲得特定器官或組織在某一狀態下的轉錄本的測序技術。該方法克服了傳統基于整體組織塊RNA(Bulk RNA)測序中無法解析細胞異質性的問題,使得研究人員能夠在單細胞分辨率下檢測基因表達信息,從而能更精確地從細胞占比、細胞特異性基因表達等層面去解析組織的狀態與RNA的關系。
scRNA-seq自2008年發表以來不斷發展[1],涌現出許多不同的方法。這些方法之間的差異主要在于對原始轉錄本的標記和生成測序文庫的方式不同,這也導致了不同的檢測效率。基于板的技術,如SMART-seq2[2],在單個實驗中可以捕獲數百個細胞,每個細胞測序的數據量較高,通常能獲得全長cDNA的信息,是一種低通量的方法。基于磁珠或微珠的技術,如10X Chromium[3],通量可以達到數千甚至數萬個細胞,使用Barcode標記細胞從而在測序數據中區分細胞來源,使用UMI對每個細胞的轉錄本進行無偏定量。該類方法通量雖高但通常不會獲得轉錄本全長的測序信息。
隨著scRNA-seq技術的發展,它在胚胎發育[4]、神經元多樣性[5]等生物學領域的應用越來越廣泛,但每個細胞檢測到的基因數量仍然受到技術限制[6]。在測序實驗中,因為單個細胞中所含mRNA非常微量,反轉錄成cDNA的過程中大量的mRNA丟失,只有少量的cDNA被擴增。因此,擴增偏倚、低RNA捕獲率等技術因素,導致scRNA-seq實驗存在大量假0值,稱為dropout現象,即一些細胞在測序過程中檢測不到真實表達的轉錄本[7]。這將對細胞聚類、差異表達基因、擬時序分析等造成影響。如何有效地降低數據中的技術噪聲,從而更充分地挖掘有意義的生物信號,已成為當前scRNA-seq數據算法研究中的一個熱點問題。
近年來,不同學者開發了多種算法來填補表達矩陣中的dropout。我們將這些方法歸為四類,分別是基于模型、基于平滑、基于矩陣重構、基于深度學習的方法。本文就當前國內外針對scRNA-seq數據中dropout的填補方法、原理和優缺點進行綜述,并對未來的發展予以展望,以期為方法開發和應用提供參考。
1 基于模型的方法
基于模型的方法的基本思想是將每個細胞中每個基因的表達值看成隨機變量并假設其分布,通過借用內部或外部信息來估計分布的參數(例如均數)以用于填補。常用的一些分布假設包括負二項分布、Gamma-Normal混合分布等。還有一些方法雖然會假設表達值的概率分布,但僅限于對dropout概率的計算,并未直接用分布參數的估計值進行填補,故未將其分入此類。
scRNA-seq數據分析通常以表達矩陣作為輸入。首先會進行質控、歸一化、選取高變異基因等預處理步驟。之后再進行降維、細胞聚類、尋找差異基因、擬時序分析等分析流程。
基于模型的方法在解決dropout問題時有兩種策略。一種是在數據歸一化、降維或聚類的過程中考慮dropout的影響;另一種是開發算法對數據進行填補,然后用填補后的數據進行分析。例如,Tang等[8]提出的bayNorm,采用貝葉斯的方法進行降噪,令真實表達的后驗分布由觀察到的轉錄本的似然以及每個基因表達值的先驗組成,假設潛在的真實基因表達水平的先驗服從負二項分布,通過參數的局部或全局估計,最后以細胞中每個基因真實表達的后驗分布的均值作為填補值。其他方法的概述見表1[7-10]。

2 基于平滑的方法
基于平滑的方法的主要思想是借用相似細胞或基因的信息來進行填補。其主要計算思路為:首先對表達矩陣進行主成分分析降維以減少矩陣的稀疏性,然后計算相似性指標構建細胞或基因的相似性矩陣,再在相似性矩陣中通過K近鄰(k nearest neighbors,KNN)等算法選取最接近的K個對象構建親和矩陣,最后對最接近的K個對象中的表達信息進行平均、加權平均、回歸等處理來填補當前對象中的dropout。該類方法主要有兩個重要關鍵點:① 準確地衡量細胞間或基因間的相似性。常用的相似性指標包括余弦距離、Pearson相關系數、Spearman相關系數等。② 有效地整合最接近的K個細胞或基因的表達信息。不同的研究者在這兩個方面進行了不同的創新。根據借用信息方式的不同這些方法可以分為借用相似細胞、相似基因以及同時借用相似細胞和基因的信息三種策略。例如,Li等[11]提出了scImpute方法,首先將細胞聚類到不同的亞群中,然后僅使用同一亞群中的細胞進行填補。先通過Gamma-Normal混合模型識別受dropout事件影響的值,然后根據不太可能受影響的基因選擇其他類似細胞中相同基因的信息通過LASSO模型來填補一個細胞中的dropout值。Zand等[12]提出的netImpute通過Pearson相關系數構建基因相似矩陣,將KNN算法作用于相似矩陣建立共表達網絡,然后利用重啟隨機游走算法從共表達網絡中得到轉移概率矩陣,最終對共表達網絡中基因本身的表達和相鄰基因的表達進行加權平均,以轉移概率為權重。其他各種方法的概述見表2[11-21]。

3 基于矩陣重構的方法
基于矩陣重構的方法的主要思想是利用scRNA-seq表達矩陣的非負性、低秩性和稀疏性的特點,將dropout的填補看成是低秩矩陣補全的問題,通過對表達矩陣進行分解將它投影到低維潛在空間,然后通過構建不同的目標函數在低秩性、非負性等不同信息的約束下重構表達矩陣以達到填補dropout的目的。常用的矩陣分解方法包括奇異值分解(singular value decomposition,SVD)和非負矩陣分解(non-negative matrix factorization,NMF)。SVD是一種常用的矩陣分解技術,可以將高維矩陣降維成低維矩陣,找出其中所隱含的“模式”。設X是一個m × n(m > n)的矩陣,通過SVD可以分解為U、S、V三個矩陣,使得X = U × S × VT。其中U是一個m × m的正交矩陣,V是一個n × n的正交矩陣。S是一個m × n的對角矩陣,其對角線上的元素大于0且按照從大到小的順序排列,稱為X的奇異值。通過設定標準可以選取前k大的奇異值用于矩陣的恢復或對S矩陣進行其他修改。R是恢復后的矩陣,它與X的奇異值非常相近。示意圖見圖1。

NMF是在矩陣中所有元素均為非負數的約束條件下進行矩陣分解的方法,基本思想為:給定一個m × n(m > n)的非負矩陣X,通過NMF能夠找到兩個低秩的非負矩陣W和H,使得W和H的乘積近似等于矩陣X中的值,即Xm × n ≈ Wm × rHr × n。其中W為基矩陣,H為系數矩陣。最常用的基于歐式距離的目標函數為:。
在此類方法中,常用交替方向乘子法(alternating direction method of multipliers,ADMM)、核范數最小化(nuclear norm minimization,NNM)等算法來求解符合約束條件的分解矩陣。不同的方法主要通過設計不同的目標函數或設置不同的約束條件來求解分解矩陣。例如,Peng等[22]提出了SCRABBLE,該方法通過借用相同組織Bulk RNA的數據作為約束條件來進行填補。其目標函數包括三項內容:第一項要求非零表達的基因的估計值盡可能接近其原始值,從而最大限度地減少對表達基因的不必要修改;第二項要求填補后的矩陣的秩盡可能小,目的是希望在給定的組織樣本中只有有限數量的細胞類型;第三項要求填補后的平均基因表達量與Bulk RNA數據的平均基因表達量之間盡可能一致。該方法通過ADMM來優化目標函數以求解重構的矩陣。其他各種方法的概述見表3[22-30]。

4 基于深度學習的方法
隨著深度學習的發展,它在數據填補領域也有越來越多的研究,憑借著對非線性關系的提取能力,許多學者也將它應用在dropout的填補問題上。該類方法主要使用自編碼器的學習框架。此外,近年來,基于圖論的方法也逐漸成為另一個重要的研究方向。
自編碼器是一種無監督的神經網絡模型,它可以學習輸入數據的隱含特征,稱為編碼。同時利用學習到的隱含特征再重構回原始輸入數據,稱為解碼。通過最小化重構誤差函數引導模型學習潛在的參數。其中均方誤差(mean squared error,MSE)是最常用的量化指標。
自編碼器用于dropout填補的基本思想是將含有dropout的表達矩陣壓縮到潛在低維空間,然后在低維空間上進行矯正,最后通過解碼器重構表達矩陣。不同的學者設計了不同的重構誤差損失函數或訓練過程,以迫使模型學習不同的信息。例如,Chi等[31]提出的scSDAEs,采用堆疊自編碼器,即把前一個自編碼器的隱藏層作為下一個自編碼器的輸入,以此逐層編碼和解碼進行降噪。其損失函數包括:最小化非0值的重構誤差以及對0值的L1稀疏懲罰,這樣可以有效約束重構矩陣中填補值的稀疏性。Chen等[32]提出的Bubble,借用了相同組織的Bulk RNA數據,其損失函數除了包括重構矩陣與原矩陣的MSE外還增加了基因合計結果與Bulk RNA數據的MSE,這樣約束了基因表達的整體分布。在設計損失函數時,除了可以衡量原始數據與重構數據之間的MSE外,另一類方法是基于分布的似然,例如DCA[33]等。
在深度學習的方法中,除了以表達矩陣的形式輸入模型外,最近,越來越多的方法開始使用圖論的方法將表達矩陣轉換成圖的數據結構輸入模型。在圖中可將細胞(或基因)的表達值作為頂點,細胞與細胞(或基因與基因)之間的相關關系作為邊。相比表達矩陣的數據結構,基于圖的數據結構可以同時利用細胞(或基因)的表達信息以及它們之間的相關性。例如,Wu等[34]提出的GE-Impute將原始矩陣轉變為細胞圖,通過偏隨機游走和skip-gram模型將所有細胞嵌入低維向量,通過學習嵌入的特征表示重建細胞圖,最終將細胞圖中所有相鄰表達值的均數作為填補值。Wu等[35]提出的G2S3將原始表達矩陣轉換為加權基因圖,通過最優化算法搜索獲得加權鄰接矩陣,然后通過在圖上進行隨機游走獲得隨機游走矩陣,填補的矩陣即為在圖上進行t步隨機游走得到。各種方法的概述見表4[31-46]。

5 總結與展望
scRNA-seq數據dropout的填補算法,消除了測序方法造成的假零值噪聲,一定程度上為更充分地挖掘有意義的生物信號提供了幫助。近年來,針對dropout的填補算法已積累了豐富的成果,但是不同方法又具有各自的局限性。
基于模型的方法往往假設表達數據服從某種分布,如果數據分布接近這種假設,則分布的先驗信息將有助于提高填補性能。但分布的假設缺乏一定的共識,并非對所有數據集都適用。此外,由于我們對技術噪聲和偏差的可能來源也缺乏了解,因此在對數據的參數化建模過程中可能忽略某些重要變異來源。在計算方面,該類方法常常需要采用EM等算法來進行參數估計,在處理大規模數據時就不具有時間優勢了。基于平滑的方法通常需要先對數據進行聚類,但是我們往往并不能提前知曉聚類數等先驗信息,在有大量缺失的情況下聚類的準確性也無法保障。基于矩陣重構的方法雖然不對數據的分布進行假設,通過將分解后的矩陣相乘從而重構表達矩陣,但是矩陣的分解也依賴于矩陣的低秩假設。此外,無論基于模型、基于平滑還是基于矩陣重構的方法主要采用的都是線性的方式來提取表達矩陣中的信息,對于非線性特征的提取能力尚有欠缺。而基于深度學習的方法通過激活函數或卷積的方式可以更好地提取數據中的非線性信息,并且也無需對數據的分布或低秩性進行假設。隨著數據規模的快速增長,可以用于訓練的數據也越來越豐富,這也更有利于發揮深度學習提取數據內在特征的優勢,但是深度學習的方法也存在可解釋性和超參數優化等問題。
為了綜合測評不同方法的性能,有學者[47-48]在大量的真實數據和模擬數據中測試了不同方法在多種分析任務中的性能。結果顯示,TRANSLATE[38]在計算時間方面的性能最好;SCC[10]、G2S3[35]等內存效率最高;AutoImpute[36]、GraphSCI[44]、scImpute[11]、TRANSLATE[38]、MAGIC[13]等隨著數據集中細胞數的增加而表現出較高的可擴展性。基于對時間、內存、可擴展性以及在不同分析任務中的綜合比較,MAGIC[13]、SAVER[9]等提供了最佳的整體性能。
通過對現有方法的綜述,我們認為在開發新方法的時候需要同時考慮以下幾個問題:① 填補的方法能夠識別真零值和假零值,并且僅對假零值進行填補而保留真實的生物零值。② 填補方法應減少對已觀測數據的改變,避免引入新的噪聲。③ 借用外部或先驗信息將有助于提高填補的性能。④ 填補的方法應具有規模可拓展性,能夠在盡可能少地消耗內存和時間的情況下,提高下游分析的性能。在未來我們期待會有更有效和更高效的方法被開發出來,以幫助我們更好地挖掘scRNA-seq數據中的信息,解決有意義的生物學問題。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:趙祥偉構思了想法;趙祥偉、葛芹玉、徐春祥設計并指導了文獻研究、解釋、數據收集、圖表繪制和論文修改;姜超、胡龍飛撰寫了論文。