在應用基于轉錄組特征構建的支持向量機、貝葉斯分類器等傳統分類器對組織樣本進行分類時,要求對基因表達譜進行樣本間的數據標準化處理,以去除實驗批次效應帶來的影響,因此限制了這些分類器在個體化水平上的應用。本文旨在構建鑒別肺癌組織與非癌(肺炎與肺正常)組織的個體化分類器。文中采用來自多組獨立數據的 197 例肺癌與 189 例肺非癌組織樣本作為訓練集,篩選得到了 3 對基因作為特征,應用多數投票規則區分肺癌組織與肺非癌組織的平均準確率達到 95.34%。然后,本文采用來自多組獨立數據的 251 例肺癌組織與 141 例肺非癌組織樣本的非標化數據進行獨立驗證,其平均準確率達到 96.78%。因此,本文提出的該分類器可對由不同實驗室檢測的樣本進行個體化判斷提供一種新的思路,具有較強的臨床實用性。
引用本文: 陳燕花, 鄭寶童, 林云輕, 朱慧敏, 鄭智軍, 關慶洲, 郭政, 嚴海丹. 利用基因表達值相對大小秩序標志鑒別肺癌. 生物醫學工程學雜志, 2017, 34(1): 129-133. doi: 10.7507/1001-5515.201608002 復制
引言
隨著二代測序和基因芯片檢測技術的廣泛應用,產生了大量的癌與非癌(炎癥與正常)組織樣本的高通量基因表達譜數據。應用這些基因表達譜數據,國內外研究者已識別出一些鑒別癌組織與非癌組織的分子標志[1-3],并應用這些分子標志構建了支持向量機[3-4]、貝葉斯分類器[2, 5]等機器學習算法來對樣本進行分類。例如,Gabere 等[1]利用支持向量機對結直腸癌組織與正常組織進行分類,Motawi 等[6]利用樸素貝葉斯分類器對乳腺癌組織、纖維腺瘤組織以及乳腺正常組織樣本進行分類。但是,由于基因表達值的檢測易受實驗室條件、試劑及實驗操作人員等差異造成的批次效應的影響[7-8],由不同實驗室獲得的表達譜數據不具有可比性,因此這些分類器的應用都需對數據進行批量的樣本片間標準化處理。
盡管目前已提出了距離加權辨別、跨平臺數據標準化和經驗貝葉斯等一些去除批次效應影響的標準化處理方法[7, 9-11],然而這些方法并不能完全去除批次效應的影響[12]。更為重要的是,在臨床實踐中,需要對每一位前來就診的患者及時地給出診斷,因此對數據進行批量標準化處理的要求限制了此類分類器在臨床應用中的可行性,這是一個亟待解決的問題。同時,基因表達在個體間存在較大的生物學變異[13-14],這也會導致在一組樣本中訓練出的特征基因難以直接對其它獨立樣本進行準確地分類。另一方面,已有研究證明,在不同的實驗批次以及采用不同的片間標準化方法處理的情況下,同一類型樣本中的基因表達值的相對大小秩序關系具有高度的穩定性[15],即基于基因表達相對大小秩序關系可以有效克服不同批次檢測的樣本間系統性偏倚產生的影響[16]。目前,已有許多研究利用基因表達秩序關系代替基因表達檢測值,并以獲得的分類特征來構建分類器,達到尋找癌癥相關的預后、耐藥等標志物的目的[17-21]。采用此類標志物,無需對樣本進行數據標準化與去批次效應處理,具有較強的臨床實用性。
在本文中,我們利用來自不同實驗室檢測的肺癌組織、肺炎以及正常肺組織樣本的表達譜數據,首先證實支持向量機與樸素貝葉斯分類器等傳統分類器對批次效應敏感,難以穩定地應用于判別未經標準化處理的單個樣本。然后,識別在正常肺組織及肺炎組織樣本中基因表達值的大小秩序關系高度穩定的基因對,再在其中識別在肺癌組織中表達值的大小秩序關系穩定地發生逆轉的基因對,最終根據這些逆轉基因對對樣本的分類準確率,將逆轉程度最大的前 3 對基因篩選為分類標志。根據這 3 對基因對的表達值的大小秩序關系,利用多數投票規則,可準確地對多組獨立數據集中的癌組織樣本與炎癥、正常組織樣本進行分類,其平均準確率達到 96.78%,并在各個數據集中的準確性均達到 94% 以上。因此,本文構建的分類器可以較為準確地對由不同實驗室檢測的肺癌組織與肺炎癥組織、正常肺組織樣本進行個體化判斷,具有較強的臨床實用性。
1 數據與預處理
本文所用的 8 套肺組織樣本的基因表達譜數據全部來源于基因表達數據庫(Gene Expression Omnibus, GEO),均由 Affymetrix 公司的 Affymetrix Plus 2.0 檢測平臺檢測獲得。應用魯棒性多芯片分析(robust multichip analysis, RMA)算法對下載的原始表達譜數據進行片內標準化處理[22],但不做片間標準化處理。對于每個表達譜數據集,利用相應的平臺注釋文件將探針編號(identity documents, ID)對應到基因上。如果一個探針沒有對應或對應到多個基因上,則刪除這個探針及其對應的表達譜。如果多個探針對應到相同的基因,則取多個探針表達值的算數均值作為此基因的最終表達值。我們將數據集分為訓練集和驗證集兩組,如表 1 所示。為了使得訓練集的樣本量足以篩選出具有代表性的特征,同時又使驗證集的獨立數據盡可能多,我們將數據集 GSE18842 的癌組織樣本作為訓練集,而它的非癌組織樣本作為驗證集。

2 方法
2.1 支持向量機與貝葉斯分類器
我們以支持向量機與貝葉斯分類器為例[23-24],展示常用的分類器受樣本檢測的批次效應影響的問題。我們將訓練集分為兩部分,用于構建支持向量機和貝葉斯分類器。首先,我們采用 t 檢驗并控制錯誤發現率(false discovery rate, FDR)小于 0.005[25],識別數據集 GSE19804 中的肺癌組織和正常肺組織之間的差異表達基因。然后,將識別的差異表達基因作為特征,再用另一套數據 GSE19188 來訓練分類器。最后,應用來自 3 組獨立數據集(GSE18842、GSE27262、GSE31210)的 297 例肺癌組織樣本及 90 例肺正常組織樣本作為驗證集,在不進行數據標準化處理的條件下,分別評價分類器的性能。
2.2 基于基因表達秩序關系構建鑒別癌組織與非癌組織的分類器
對于某一特定類型的組織樣本,首先將基因表達豐度進行樣本內排秩,然后對所檢測的每對基因(如基因 i 和基因 j),計算基因 i 排秩大于基因 j 的樣本的比例,記為 P(Gi>Gj)。我們將在一類樣本中滿足 P(Gi>Gj)>0.90 條件的基因對定義為在該類樣本中穩定的基因對。若基因 i 和基因 j 在非癌組織樣本中具有 Gi>Gj 的穩定模式,而在癌組織樣本中出現 Gi<Gj 的穩定模式,則將該基因對定義為穩定逆轉基因對。
然后,計算每對逆轉基因對(如基因 i 和基因 j)在每個樣本中的秩序差,并計算其在訓練集的兩類樣本中的平均秩序差:
${R_{tij}} = |{R_{ti}} - {R_{tj}}|$ |
其中 Rti 表示基因 i 在樣本 t 中的秩序大小,Rtj 表示基因 j 在樣本 t 中的秩序大小,Rtij 表示基因 i 和基因 j 在樣本 t 中的秩序差大小。
$avg{R_{ij}} = \sqrt {\left[ {\frac{1}{n}\sum\limits_{t = 1}^n {{R_{tij}}} (N)} \right] \times \left[ {\frac{1}{m}\sum\limits_{t = 1}^m {{R_{tij}}} (C)} \right]} $ |
其中,m 表示癌組織樣本總數,n 表示非癌組織樣本總數。 表示逆轉基因對(i,j)在非癌組織樣本中的秩序差大小, 表示逆轉基因對(i,j)在癌組織樣本中的秩序差大小。
最后,計算每對逆轉基因在兩類不同組織樣本的平均秩序差的幾何均值,以此反映該基因的逆轉程度。分別篩選逆轉程度最大的前 1、3、5、7 對逆轉基因對,根據其在訓練集中的分類準確率,選取鑒別癌組織與非癌組織的分類標志。對于某一給定的樣本,利用 k 個基因對,按照多數投票規則對其進行分類:在該樣本中,如果有超過一半基因對的表達模式與其在訓練集中的非癌組織樣本的表達模式一致,則判斷該樣本為非癌組織樣本;反之,將該樣本判斷為癌組織樣本。
2.3 分類器評價
我們將癌組織樣本定義為陽性樣本,正常組織和炎癥組織樣本定義為陰性樣本,利用敏感性(sensitivity)、特異性(specificity)和準確率(accu-racy)來評價該分類器的性能。敏感性是指癌組織樣本被正確判別的比例,特異性是指正常組織與炎癥組織樣本被正確判別的比例,而準確率是指所有樣本被正確判別的比例。以真陰性(true negative, TN)與假陰性(false negative, FN)分別表示在判別為陰性的樣本中確實為陰性及并非陰性樣本的例數,真陽性(true positive, TP)與假陽性(false posi-tive, FP)分別表示在判別為陽性的樣本中確實為陽性及并非陽性樣本的例數,則計算公式如下:
$\rm {specificity} = \frac{\rm {TN}}{\rm {TN + FP}}$ |
$\rm {sensitivity} = \frac{\rm {TP}}{\rm {TP + FN}}$ |
$\rm {accuracy} = \frac{\rm {TN + TP}}{\rm {TN + FP + TP + FN}}$ |
3 結果
3.1 傳統分類器對批次效應敏感
利用 GSE19804 數據集,我們通過 t 檢驗篩選到了 7 943 個在肺癌組織與肺正常組織樣本間差異表達的基因(FDR<0.005)。將這些差異表達基因作為特征,利用 GSE19188 中 91 個肺癌組織樣本與 65 個肺非癌組織樣本進行訓練,分別構建支持向量機和貝葉斯分類器,這兩種分類器在訓練集中的分類準確率分別達到 97.43% 和 96.79%。
應用 3 組數據(GSE18842、GSE27262、GSE31210)作為獨立驗證集,分別評價分類器的效能。結果顯示,在未經片間標準化處理的條件下,這兩種分類器對某些數據集的分類效能很低(如表 2 所示)。例如,利用支持向量機與貝葉斯分類器,數據集 GSE31210 中的 20 個肺非癌組織樣本均被錯誤判斷為肺癌組織樣本,所以這 2 個分類器在該數據集的特異性都為 0,即支持向量機與貝葉斯分類器在該數據集失效。此外,貝葉斯分類器在數據集 GSE27262 中的特異性也為 0。

3.2 篩選肺癌組織與肺炎組織、肺正常組織的分類特征并構建分類器
將表 1 所列的訓練集合并,當一致性閾值為 90% 時,我們在肺正常組織、肺炎組織樣本中分別得到 151 265 582 與 135 319 426 對穩定基因對,其中有 122 346 362 對交疊且基因大小秩序關系一致的穩定基因對,我們將其作為非癌組織樣本的穩定基因對。類似地,我們在肺癌組織樣本中得到 129 547 358 對穩定基因對,其中有 32 對基因相對于非癌組織樣本中的基因大小秩序關系發生了逆轉,即為穩定逆轉基因對。我們將這 32 對基因按照其在肺癌組織樣本相對非癌組織樣本的逆轉程度(見方法 2.2,利用幾何均值求逆轉程度)從大到小排序,分別選取逆轉程度最大的前 1、3、5、7 對逆轉基因對,按照多數投票規則對樣本進行分類。結果顯示,采用 3 對基因,在訓練集中的分類準確率最大,達到 95.34%(如圖 1 所示)。
在 4 組獨立數據集中,采用這 3 對基因的分類準確率都達到了 94% 以上(如表 3 所示),平均準確率達到 96.78%。由于驗證數據集 GSE18842 和 GSE41861 只包含肺非癌組織樣本,因此我們只能評價分類的特異性而無法評價分類的敏感性(表 3 中 GSE18842 和 GSE41861 數據所對應的敏感性為空)。例如,對數據集 GSE18842 中的 45 個非癌組織樣本進行分類時, 95.56% 的樣本被正確分類為非癌組織樣本,因此分類的特異性為 95.56%。上述結果表明基于基因表達秩序關系來構建的分類器不受批次效應的影響,相對于其他傳統分類器來說具有更加穩定的分類效果。


4 討論
批次效應是進行高通量基因表達譜分析時經常面臨的一個困難問題。當我們需要分析由不同實驗室所檢測的數據時,此問題尤為突出[7]。在本文中,我們首先證實了支持向量機和貝葉斯分類器等傳統分類器對批次效應敏感,無法在獨立數據集中得到穩定的驗證。目前對肺癌組織和肺非癌組織進行分類的研究都是基于支持向量機等傳統分類器[3-4],但存在上述的對批次效應敏感的問題。例如,Podolsky 等[4]應用支持向量機對不同數據集的肺癌和非癌組織進行分類時,發現準確率在不同數據集間波動較大,這和本文的結果是一致的。
為了避免批次效應所產生的問題,我們提出了基于樣本內基因表達值相對大小秩序關系識別分類標志的方法,并識別了 3 對基因,利用其在各樣本中的相對大小秩序關系鑒別肺癌組織和肺非癌組織樣本。由這 3 對基因組成的分類標志在 4 套來源于不同實驗室檢測的獨立數據集的非標化數據中得到驗證,表明該分類標志具有良好的跨實驗室魯棒性。相對于傳統的分類標志,我們得到的基因對標志對批次效應不敏感[16],無需對樣本數據進行標準化處理,具有很強的魯棒性。
值得注意的是,本文使用的數據都是由 Affy-metrix 檢測平臺檢測的。由于不同的芯片平臺的檢測原理不同,可能存在一小部分基因表達值的相對大小秩序關系在不同檢測平臺中不一致,因此我們在后續研究中擬進一步進行跨平臺分析,以保證分類標志的跨平臺魯棒性。
引言
隨著二代測序和基因芯片檢測技術的廣泛應用,產生了大量的癌與非癌(炎癥與正常)組織樣本的高通量基因表達譜數據。應用這些基因表達譜數據,國內外研究者已識別出一些鑒別癌組織與非癌組織的分子標志[1-3],并應用這些分子標志構建了支持向量機[3-4]、貝葉斯分類器[2, 5]等機器學習算法來對樣本進行分類。例如,Gabere 等[1]利用支持向量機對結直腸癌組織與正常組織進行分類,Motawi 等[6]利用樸素貝葉斯分類器對乳腺癌組織、纖維腺瘤組織以及乳腺正常組織樣本進行分類。但是,由于基因表達值的檢測易受實驗室條件、試劑及實驗操作人員等差異造成的批次效應的影響[7-8],由不同實驗室獲得的表達譜數據不具有可比性,因此這些分類器的應用都需對數據進行批量的樣本片間標準化處理。
盡管目前已提出了距離加權辨別、跨平臺數據標準化和經驗貝葉斯等一些去除批次效應影響的標準化處理方法[7, 9-11],然而這些方法并不能完全去除批次效應的影響[12]。更為重要的是,在臨床實踐中,需要對每一位前來就診的患者及時地給出診斷,因此對數據進行批量標準化處理的要求限制了此類分類器在臨床應用中的可行性,這是一個亟待解決的問題。同時,基因表達在個體間存在較大的生物學變異[13-14],這也會導致在一組樣本中訓練出的特征基因難以直接對其它獨立樣本進行準確地分類。另一方面,已有研究證明,在不同的實驗批次以及采用不同的片間標準化方法處理的情況下,同一類型樣本中的基因表達值的相對大小秩序關系具有高度的穩定性[15],即基于基因表達相對大小秩序關系可以有效克服不同批次檢測的樣本間系統性偏倚產生的影響[16]。目前,已有許多研究利用基因表達秩序關系代替基因表達檢測值,并以獲得的分類特征來構建分類器,達到尋找癌癥相關的預后、耐藥等標志物的目的[17-21]。采用此類標志物,無需對樣本進行數據標準化與去批次效應處理,具有較強的臨床實用性。
在本文中,我們利用來自不同實驗室檢測的肺癌組織、肺炎以及正常肺組織樣本的表達譜數據,首先證實支持向量機與樸素貝葉斯分類器等傳統分類器對批次效應敏感,難以穩定地應用于判別未經標準化處理的單個樣本。然后,識別在正常肺組織及肺炎組織樣本中基因表達值的大小秩序關系高度穩定的基因對,再在其中識別在肺癌組織中表達值的大小秩序關系穩定地發生逆轉的基因對,最終根據這些逆轉基因對對樣本的分類準確率,將逆轉程度最大的前 3 對基因篩選為分類標志。根據這 3 對基因對的表達值的大小秩序關系,利用多數投票規則,可準確地對多組獨立數據集中的癌組織樣本與炎癥、正常組織樣本進行分類,其平均準確率達到 96.78%,并在各個數據集中的準確性均達到 94% 以上。因此,本文構建的分類器可以較為準確地對由不同實驗室檢測的肺癌組織與肺炎癥組織、正常肺組織樣本進行個體化判斷,具有較強的臨床實用性。
1 數據與預處理
本文所用的 8 套肺組織樣本的基因表達譜數據全部來源于基因表達數據庫(Gene Expression Omnibus, GEO),均由 Affymetrix 公司的 Affymetrix Plus 2.0 檢測平臺檢測獲得。應用魯棒性多芯片分析(robust multichip analysis, RMA)算法對下載的原始表達譜數據進行片內標準化處理[22],但不做片間標準化處理。對于每個表達譜數據集,利用相應的平臺注釋文件將探針編號(identity documents, ID)對應到基因上。如果一個探針沒有對應或對應到多個基因上,則刪除這個探針及其對應的表達譜。如果多個探針對應到相同的基因,則取多個探針表達值的算數均值作為此基因的最終表達值。我們將數據集分為訓練集和驗證集兩組,如表 1 所示。為了使得訓練集的樣本量足以篩選出具有代表性的特征,同時又使驗證集的獨立數據盡可能多,我們將數據集 GSE18842 的癌組織樣本作為訓練集,而它的非癌組織樣本作為驗證集。

2 方法
2.1 支持向量機與貝葉斯分類器
我們以支持向量機與貝葉斯分類器為例[23-24],展示常用的分類器受樣本檢測的批次效應影響的問題。我們將訓練集分為兩部分,用于構建支持向量機和貝葉斯分類器。首先,我們采用 t 檢驗并控制錯誤發現率(false discovery rate, FDR)小于 0.005[25],識別數據集 GSE19804 中的肺癌組織和正常肺組織之間的差異表達基因。然后,將識別的差異表達基因作為特征,再用另一套數據 GSE19188 來訓練分類器。最后,應用來自 3 組獨立數據集(GSE18842、GSE27262、GSE31210)的 297 例肺癌組織樣本及 90 例肺正常組織樣本作為驗證集,在不進行數據標準化處理的條件下,分別評價分類器的性能。
2.2 基于基因表達秩序關系構建鑒別癌組織與非癌組織的分類器
對于某一特定類型的組織樣本,首先將基因表達豐度進行樣本內排秩,然后對所檢測的每對基因(如基因 i 和基因 j),計算基因 i 排秩大于基因 j 的樣本的比例,記為 P(Gi>Gj)。我們將在一類樣本中滿足 P(Gi>Gj)>0.90 條件的基因對定義為在該類樣本中穩定的基因對。若基因 i 和基因 j 在非癌組織樣本中具有 Gi>Gj 的穩定模式,而在癌組織樣本中出現 Gi<Gj 的穩定模式,則將該基因對定義為穩定逆轉基因對。
然后,計算每對逆轉基因對(如基因 i 和基因 j)在每個樣本中的秩序差,并計算其在訓練集的兩類樣本中的平均秩序差:
${R_{tij}} = |{R_{ti}} - {R_{tj}}|$ |
其中 Rti 表示基因 i 在樣本 t 中的秩序大小,Rtj 表示基因 j 在樣本 t 中的秩序大小,Rtij 表示基因 i 和基因 j 在樣本 t 中的秩序差大小。
$avg{R_{ij}} = \sqrt {\left[ {\frac{1}{n}\sum\limits_{t = 1}^n {{R_{tij}}} (N)} \right] \times \left[ {\frac{1}{m}\sum\limits_{t = 1}^m {{R_{tij}}} (C)} \right]} $ |
其中,m 表示癌組織樣本總數,n 表示非癌組織樣本總數。 表示逆轉基因對(i,j)在非癌組織樣本中的秩序差大小, 表示逆轉基因對(i,j)在癌組織樣本中的秩序差大小。
最后,計算每對逆轉基因在兩類不同組織樣本的平均秩序差的幾何均值,以此反映該基因的逆轉程度。分別篩選逆轉程度最大的前 1、3、5、7 對逆轉基因對,根據其在訓練集中的分類準確率,選取鑒別癌組織與非癌組織的分類標志。對于某一給定的樣本,利用 k 個基因對,按照多數投票規則對其進行分類:在該樣本中,如果有超過一半基因對的表達模式與其在訓練集中的非癌組織樣本的表達模式一致,則判斷該樣本為非癌組織樣本;反之,將該樣本判斷為癌組織樣本。
2.3 分類器評價
我們將癌組織樣本定義為陽性樣本,正常組織和炎癥組織樣本定義為陰性樣本,利用敏感性(sensitivity)、特異性(specificity)和準確率(accu-racy)來評價該分類器的性能。敏感性是指癌組織樣本被正確判別的比例,特異性是指正常組織與炎癥組織樣本被正確判別的比例,而準確率是指所有樣本被正確判別的比例。以真陰性(true negative, TN)與假陰性(false negative, FN)分別表示在判別為陰性的樣本中確實為陰性及并非陰性樣本的例數,真陽性(true positive, TP)與假陽性(false posi-tive, FP)分別表示在判別為陽性的樣本中確實為陽性及并非陽性樣本的例數,則計算公式如下:
$\rm {specificity} = \frac{\rm {TN}}{\rm {TN + FP}}$ |
$\rm {sensitivity} = \frac{\rm {TP}}{\rm {TP + FN}}$ |
$\rm {accuracy} = \frac{\rm {TN + TP}}{\rm {TN + FP + TP + FN}}$ |
3 結果
3.1 傳統分類器對批次效應敏感
利用 GSE19804 數據集,我們通過 t 檢驗篩選到了 7 943 個在肺癌組織與肺正常組織樣本間差異表達的基因(FDR<0.005)。將這些差異表達基因作為特征,利用 GSE19188 中 91 個肺癌組織樣本與 65 個肺非癌組織樣本進行訓練,分別構建支持向量機和貝葉斯分類器,這兩種分類器在訓練集中的分類準確率分別達到 97.43% 和 96.79%。
應用 3 組數據(GSE18842、GSE27262、GSE31210)作為獨立驗證集,分別評價分類器的效能。結果顯示,在未經片間標準化處理的條件下,這兩種分類器對某些數據集的分類效能很低(如表 2 所示)。例如,利用支持向量機與貝葉斯分類器,數據集 GSE31210 中的 20 個肺非癌組織樣本均被錯誤判斷為肺癌組織樣本,所以這 2 個分類器在該數據集的特異性都為 0,即支持向量機與貝葉斯分類器在該數據集失效。此外,貝葉斯分類器在數據集 GSE27262 中的特異性也為 0。

3.2 篩選肺癌組織與肺炎組織、肺正常組織的分類特征并構建分類器
將表 1 所列的訓練集合并,當一致性閾值為 90% 時,我們在肺正常組織、肺炎組織樣本中分別得到 151 265 582 與 135 319 426 對穩定基因對,其中有 122 346 362 對交疊且基因大小秩序關系一致的穩定基因對,我們將其作為非癌組織樣本的穩定基因對。類似地,我們在肺癌組織樣本中得到 129 547 358 對穩定基因對,其中有 32 對基因相對于非癌組織樣本中的基因大小秩序關系發生了逆轉,即為穩定逆轉基因對。我們將這 32 對基因按照其在肺癌組織樣本相對非癌組織樣本的逆轉程度(見方法 2.2,利用幾何均值求逆轉程度)從大到小排序,分別選取逆轉程度最大的前 1、3、5、7 對逆轉基因對,按照多數投票規則對樣本進行分類。結果顯示,采用 3 對基因,在訓練集中的分類準確率最大,達到 95.34%(如圖 1 所示)。
在 4 組獨立數據集中,采用這 3 對基因的分類準確率都達到了 94% 以上(如表 3 所示),平均準確率達到 96.78%。由于驗證數據集 GSE18842 和 GSE41861 只包含肺非癌組織樣本,因此我們只能評價分類的特異性而無法評價分類的敏感性(表 3 中 GSE18842 和 GSE41861 數據所對應的敏感性為空)。例如,對數據集 GSE18842 中的 45 個非癌組織樣本進行分類時, 95.56% 的樣本被正確分類為非癌組織樣本,因此分類的特異性為 95.56%。上述結果表明基于基因表達秩序關系來構建的分類器不受批次效應的影響,相對于其他傳統分類器來說具有更加穩定的分類效果。


4 討論
批次效應是進行高通量基因表達譜分析時經常面臨的一個困難問題。當我們需要分析由不同實驗室所檢測的數據時,此問題尤為突出[7]。在本文中,我們首先證實了支持向量機和貝葉斯分類器等傳統分類器對批次效應敏感,無法在獨立數據集中得到穩定的驗證。目前對肺癌組織和肺非癌組織進行分類的研究都是基于支持向量機等傳統分類器[3-4],但存在上述的對批次效應敏感的問題。例如,Podolsky 等[4]應用支持向量機對不同數據集的肺癌和非癌組織進行分類時,發現準確率在不同數據集間波動較大,這和本文的結果是一致的。
為了避免批次效應所產生的問題,我們提出了基于樣本內基因表達值相對大小秩序關系識別分類標志的方法,并識別了 3 對基因,利用其在各樣本中的相對大小秩序關系鑒別肺癌組織和肺非癌組織樣本。由這 3 對基因組成的分類標志在 4 套來源于不同實驗室檢測的獨立數據集的非標化數據中得到驗證,表明該分類標志具有良好的跨實驗室魯棒性。相對于傳統的分類標志,我們得到的基因對標志對批次效應不敏感[16],無需對樣本數據進行標準化處理,具有很強的魯棒性。
值得注意的是,本文使用的數據都是由 Affy-metrix 檢測平臺檢測的。由于不同的芯片平臺的檢測原理不同,可能存在一小部分基因表達值的相對大小秩序關系在不同檢測平臺中不一致,因此我們在后續研究中擬進一步進行跨平臺分析,以保證分類標志的跨平臺魯棒性。