引用本文: 李佳圓, 郝宇, 吳雪瑤. 基于多組學數據的流行病學研究策略及其在乳腺癌研究中的應用. 中國普外基礎與臨床雜志, 2020, 27(11): 1344-1347. doi: 10.7507/1007-9424.202009072 復制
疾病的發生發展是遺傳和環境因素在體內發生了一系列復雜的分子變化的結果,這些分子事件之間既有層級關系,也有交互作用,形成了復雜的分子病因網絡[1-2]。近年來,隨著對疾病背后復雜分子現象的認識以及高通量測序技術的不斷發展與完善,基因組、表觀基因組、轉錄組、蛋白質組、代謝組、微生物組、環境暴露組等多組學信息大量涌現,為闡明暴露因素與疾病結局過程中分子事件之間相互關聯的“黑箱”提供了可能[3]。因此,基于流行病學人群觀察性研究與多組學數據整合利用的系統流行病學應運而生,即通過觀察和比較不同組學分子事件在不同暴露水平和疾病結局(患病/非患病)人群中分布的差異、各分子事件之間的動態變化關系以及它們之間的聯合作用(網狀關系),以期打開暴露因素致病機制的“黑箱” [3-4]。目前,多組學數據主要應用于探索病因機制、發現疾病早期診斷標志物、發病和預后預測等多個方面。筆者將著重介紹多組學數據在病因機制研究和風險預測模型研究中的常見研究策略及其在乳腺癌研究中的常見應用。
1 多組學研究在病因機制探索中的研究策略及數據整合方法
1.1 多組學數據在病因研究中常見的研究策略
1.1.1 假設驅動的病因研究策略
傳統的流行病學研究一般遵循假設驅動的研究策略,又稱為“假設演繹法”,其研究思路可簡述為:根據先驗經驗或機制研究提出暴露與結局相關的因果假設→設計觀察或實驗研究獲取暴露與結局的關聯度證據→若排除了隨機誤差和系統誤差關聯的存在且符合時間順序的關系則證明因果假設可能是成立的。假設驅動的研究策略在融合了多組學數據的系統流行病學研究中仍然適用,研究者可在既往發現的疾病機制基礎上,借助通路信息推斷出一個假定合理的致病網絡機制并加以驗證[5]。該方法常應用于藥物靶點設計、疾病發生和預后的預測、精準預防或診療策略的制定等領域[5]。例如,基礎研究發現 FTO 等位基因與肥胖密切相關,然后有研究者[6]在此基礎上,通過整合與分析基因表達、表觀組學、染色體構象等數據發現 FTO 等位基因抑制了脂肪前體細胞的線粒體產熱功能,為肥胖風險等位基因提供了機制學解釋,并據此提出一種對肥胖癥的潛在治療方式,即通過調控包含 ARID5B、rs1421085、IRX3、IRX5 等因子的脂肪細胞產熱調節通路,促進或抑制機體的肥胖進程。然而在假設驅動的病因驗證研究中,先驗假設的合理性可能受到研究者有限的知識儲備和經驗偏倚的影響[7]。
1.1.2 數據驅動的病因研究策略
該策略在不受任何假設限制的情況下,充分利用系統生物學的網絡分析法,構建“暴露因素–組學標志物–疾病結局”網絡模型,并對比不同特征人群分組間如實驗組與對照組分子事件網絡的差異及其效應[5]。數據驅動的病因研究策略在目前以大數據為背景的系統流行病學研究中被廣泛應用,為進一步的實驗驗證、藥物靶點確定、制定精準的預防或診療措施提供理論依據[5]。近年來,國內外多個大型生物樣本庫陸續開放,例如,提供了與 33 種癌癥相關的基因組、表觀遺傳組、轉錄組、蛋白組等多組學信息的癌癥基因組圖譜(The Cancer Genome Atlas,TCGA)以及英國生物樣本庫、百萬退伍軍人計劃、美國“All of us”研究計劃等,均為疾病的機制學研究提供了海量、多源的數據。因此,如何將這些信息整合應用已成為目前數據挖掘研究的熱點問題。
1.2 多組學病因研究中常用的數據整合方法
Pinu 等[8]提出了多組學數據分析與整合的 3 種方法,即系統建模、后分析數據整合和整合數據分析,其中系統建模是對先驗的機制學假設進行驗證的方法,而后分析數據整合和整合數據分析則可用于發現新的生物學機制,是基于數據驅動的病因探索的方法。后分析數據整合是指研究者首先對不同組學的數據集分別進行分析,隨后對關聯節點的重要特征進行分析,然后再將關鍵特征在整體模型中進行整合并構建病因網絡;整合數據分析則是在進行任何數據分析或解釋之前就采用相關分析、多元分析或通路分析等方法對多組學數據進行了合并,有研究者[9]將該方法稱為“統計整合”。值得注意的是,這種整合方法可能會因第一步采取單組學信息篩選而損失組學信息聯合分析才能發現的關聯。在統計整合中,基于通路分析的整合是在流行病學病因研究中最直觀且使用最多的整合方法,它將流行病學與系統生物學更緊密地聯合了起來[10]。通路分析是指以 Ingenuity Pathway Analysis(IPA)、KeyPathwayMinerWeb、Omix 等各類型的通路數據庫為背景,基于通路的匹配對多個平臺的內容進行整合,隨后通過富集分析指認出基因、mRNA、蛋白、小分子代謝產物等多組學分子都集中的通路,同時尋找不同條件之間如機體受到刺激前后或在不同病理生理狀態下出現差異的通路和通路特征,為后續在人群中的驗證和研究提供靶點[11]。通路分析在對多組學數據整合的基礎上為疾病復雜的生物學機制和病因網絡的探索提供了新的思路。因此,有研究者[3, 10]也將系統流行病學定義為將通路分析嵌入到觀察性研究設計中,以促進我們對機體生物學機制和分子通路理解的一門新的學科和領域。然而通路分析僅從網絡層次上簡單地整合了不同來源的數據而并未建立一個有機的整體框架,一些重要的信息如層內的交互作用并未在網絡中體現,從而可能造成一些重要關聯信息的遺漏[5]。因此,仍需對能夠有機整合復雜、多樣化來源數據的研究設計和分析方法進行進一步的探索。
2 多組學數據在疾病風險預測中的研究策略及數據整合方法
2.1 多組學數據在疾病風險預測中的研究策略
近年來,大數據挖掘技術迅速發展,已有眾多研究證實,相較于傳統的利用環境危險因素或臨床檢測指標建立的疾病發病或預后風險預測模型,加入多組學信息后的模型預測準確度提高[12]。由于多組學數據具有數據類型多樣化、數據維度大等特點,因此,建模時第一步需使用降維的方法進行變量選擇以縮小各組學的大小,第二步再通過適宜的方法整合縮減后的數據,以建立最終模型。
2.1.1 通過降維進行多組學數據簡化
數據簡化是建立預測模型的首要步驟,可利用特征提取、特征選擇等技術提高模型準確度和分類器效率,同時降低模型計算的復雜度[13-14]。特征提取,即通過創建主要特征的線性或非線性組合以取代高維的原始數據,常見的方法有線性判別分析、主成分分析、自動編碼器深度學習等;而特征選擇則是通過去除預測模型的冗余噪聲,尋找冗余度最小、相關性最大的特征子集作為模型的輸入變量集,常見的特征選擇方法有濾波式法、封裝器法、嵌入法、混合法等[15]。
2.1.2 通過聯合建模進行多組學數據整合
目前的多組學數據整合方法主要歸為兩類:第一類,多階段分析,即使用多階段逐步的分析策略整合信息,其主要思路是先在兩兩組學之間找到關聯,然后再在組學與表型特征之間找到關聯,逐步獲得層次清晰的因果關系,但此種方式易受到現有知識的限制和影響,無法有效地模擬多水平因素之間同時相互作用的、非線性的復雜關聯[16];第二類,維度融合分析,這是一種將多個組學數據同時進行分析的整合策略[17],分析技術上相對易于實現,維度融合分析中常見的三種形式即基于串聯的整合、基于轉換的整合及基于模型的整合,見圖 1。

2.2 多組學數據在疾病風險預測中常見的 3 種數據整合方法
2.2.1 基于串聯的整合
基于串聯的整合建模,即將多個數據矩陣組合形成一個大的數據矩陣,然后再使用機器學習算法挖掘分析這個合并后的數據集,其中貝葉斯網絡、語法進化神經網絡、多元 Cox-LASSO 等方法較為常見[15]。該策略的一個主要優點是可考慮不同類型組學數據之間的相互作用,已有研究將其用于聯合單核苷酸多態性位點和基因表達來預測血漿中的蛋白水平[18],或用于拷貝數變化、DNA 甲基化、miRNA 與癌癥表型相關基因間的交互作用識別及對表型進行預測[19]。但該種整合形式容易使多組學數據的維度進一步加大,導致進入模型的變量數遠多于樣本數,因此若各組學的變量較多,將不宜使用該方法。Atabaki-Pasdar 等[20]在一項多中心前瞻性隊列研究中利用基因組、轉錄組、蛋白質組、代謝組和臨床檢測數據,使用最小絕對收縮和選擇算子對組學數據進行簡化,再使用隨機森林對變量進行整合,建立非酒精性脂肪肝發生風險預測模型,結果發現,與僅由臨床指標構建的預測模型[AUC=0.79,95%CI(0.76,0.81)] 相比,加入多組學數據后的模型預測性能得到有效提升 [AUC=0.84,95%CI(0.82,0.86)],該研究結果將對非酒精性脂肪肝高危人群的篩查具有重要的實踐價值。
2.2.2 基于轉換的整合
該方法的第一步首先將每個組學數據集轉換成其對應的中間形式如核矩陣或圖,第二步隨即將轉換后的內核或圖進行組合從而建立網絡模型,常見的方法有深度學習算法、K-means 聚類法等[15-16]。基于轉換的整合的最大優點是在中間形式轉換時可保留每個組學數據集的特定屬性,因此,如果每個組學數據集都能找到一個合適的中間形式(內核或圖),則首選該整合策略。Peng 等[21]運用該策略開展了一項多組學研究,首先基于循證證據找到在基因表達、拷貝數變化、甲基化、轉錄等組學中與膀胱癌有顯著關聯的標志物作為各組學的圖核,然后計算各組學的內部特征與圖核的關聯進而生成各組學圖模型,再利用線性回歸模型進一步連接整合各組學圖模型,構建膀胱癌基因異質網絡模型,最后在模型上使用一種改進的傳播算法來識別膀胱癌相關基因。
2.2.3 基于模型的整合
該分析方法首先使用各組學數據作為訓練數據集來構建一系列模型,然后整合利用第一階段的模型來建立綜合模型,常見的方法有貝葉斯網絡、多數投票法、概率因果網絡等[22-23]。需特別注意的是,由于納入最終整合分析的變量是在第一階段各組學數據集的獨立建模過程中進入模型的變量,因此,該種方法可能會因第一階段變量的剔除而導致部分交互作用無法識別。基于模型的整合方法尤其適用于整合高度異構的多組學數據,也可用于基于公共數據構建的多個模型的整合[16]。
3 多組學數據在乳腺癌研究中的應用
目前,多組學數據在乳腺癌研究中的應用多集中在藥物治療靶點識別、亞型判別、預后預測等方面。
在藥物治療靶點的探索中,Pauling 等[24]基于雜交相互作用網絡開發了一套能夠對三陰性乳腺癌多組學數據進行整合的方法,通過對基因表達、蛋白表達、蛋白磷酸化三類組學數據進行整合,最終發現 zyx Ser267 蛋白可作為周期蛋白依賴型激酶 1 在體內磷酸化的作用靶點。Wang 等[25]通過對基因組、轉錄組、甲基化組、臨床指標等多水平數據的整合,對 B 淋巴細胞瘤-2 基因(Bcl-2)家族的分子特征進行了首次系統性分析,將 Bcl-2 家族在乳腺癌中的生物治療靶點范圍擴大到了遠端非編碼區。
在乳腺癌亞型判別方面,基于 TCGA 中乳腺癌分子圖譜進行的分析較為常見,研究者們對 4 種主要乳腺癌亞型(Luminal A、Luminal B、HER-2、三陰性)的特異性多組學標志物進行了識別及整合建模,如 Kim 等[26]利用該數據庫中 465 例乳腺癌患者的基因表達和 DNA 甲基化數據,通過自動編碼器法有效識別了與乳腺癌亞型相關的基因和甲基化變異;Tao 等[22]采用濾波式法簡化 606 例乳腺癌患者的 mRNA、甲基化和拷貝數變異數據并利用多核學習法在各組學數據中生成線性、高斯和多項式核函數,最后合并多個核函數得到乳腺癌亞型分類預測器,指出相較于單組學預測模型,整合多個組學的模型可提高預測準確度。
在乳腺癌預后預測方面,多組學數據同樣具有十分重要的臨床實踐價值。Kim 等[26]使用隨機游走法對 465 例乳腺癌患者的基因表達和 DNA 甲基化數據對乳腺癌的生存時間進行預測;Mihaylov 等[27]利用支持向量機法對 2 000 例患者的微陣列、拷貝數變異數據及臨床指標也對乳腺癌的生存時間進行了預測;Ankney 等[28]通過對乳腺癌基因突變、拷貝數和 mRNA 表達數據進行整合,識別出能夠指示乳腺癌亞型預后的生物標志物,進而更有效精確地對個體的預后風險進行預測,為高風險人群的識別及臨床個性化治療方案的選擇提供了依據。
4 目前多組學研究中的局限性及未來面臨的挑戰
結合多組學信息開展基于人群(自然人群和病例人群)的疾病病因研究、風險預測和發現精準治療靶點的研究是當前系統生物學應用的熱點領域,也有研究者將多組學數據與人群研究相結合的研究稱為系統流行病學。理論上,系統流行病學可為研究者提供揭示因果黑箱的工具,也可提升風險預測模型的準確度,還具有發現治療目標靶點的優勢,但該領域尚處在起步階段,方法學均存在明顯滯后性。首先,因果網狀模型是解釋組學信息的首選理論,但如何構建多組學信息病因網絡仍大多依靠先驗經驗指引。基于人群的觀察性研究還面臨選題及對偏倚和混雜因素控制是否得當的挑戰,這些因素會對發現新的病因層級或闡述組學信息間復雜的交互作用存在影響。其次,組學信息還在不斷發現和完善中,囿于研究者知識和所掌握的組學信息,所獲知的病因關聯和風險模型可能存在可重復性不佳的問題。第三,組學的數據維度較高,但一般樣本量較小,一般分析方法均采取先降維再進行整合的思路,這可能人為造成信息損失,當前機器學習法也會因高維度小樣本數據而出現過擬合現象。第四,應用多組學信息進行發病和預后風險預測,參數越多的模型準確度越高,但應特別注意獲得組學的信息所耗費的檢測費用與模型改善后對患者受益的程度是否匹配,即應考慮多組學預測模型的實際成本效益比。最后,多組學數據還存在各層級數據不平衡、數據復雜、數據集錯誤標記、缺失數據多等問題,這也是限制多組學數據利用的重要原因。因此,需要加強邏輯學、數學和生物醫學的融合,在病因理論和大數據算法上有所突破,才能推動多組學數據在疾病研究中發揮理想作用。
疾病的發生發展是遺傳和環境因素在體內發生了一系列復雜的分子變化的結果,這些分子事件之間既有層級關系,也有交互作用,形成了復雜的分子病因網絡[1-2]。近年來,隨著對疾病背后復雜分子現象的認識以及高通量測序技術的不斷發展與完善,基因組、表觀基因組、轉錄組、蛋白質組、代謝組、微生物組、環境暴露組等多組學信息大量涌現,為闡明暴露因素與疾病結局過程中分子事件之間相互關聯的“黑箱”提供了可能[3]。因此,基于流行病學人群觀察性研究與多組學數據整合利用的系統流行病學應運而生,即通過觀察和比較不同組學分子事件在不同暴露水平和疾病結局(患病/非患病)人群中分布的差異、各分子事件之間的動態變化關系以及它們之間的聯合作用(網狀關系),以期打開暴露因素致病機制的“黑箱” [3-4]。目前,多組學數據主要應用于探索病因機制、發現疾病早期診斷標志物、發病和預后預測等多個方面。筆者將著重介紹多組學數據在病因機制研究和風險預測模型研究中的常見研究策略及其在乳腺癌研究中的常見應用。
1 多組學研究在病因機制探索中的研究策略及數據整合方法
1.1 多組學數據在病因研究中常見的研究策略
1.1.1 假設驅動的病因研究策略
傳統的流行病學研究一般遵循假設驅動的研究策略,又稱為“假設演繹法”,其研究思路可簡述為:根據先驗經驗或機制研究提出暴露與結局相關的因果假設→設計觀察或實驗研究獲取暴露與結局的關聯度證據→若排除了隨機誤差和系統誤差關聯的存在且符合時間順序的關系則證明因果假設可能是成立的。假設驅動的研究策略在融合了多組學數據的系統流行病學研究中仍然適用,研究者可在既往發現的疾病機制基礎上,借助通路信息推斷出一個假定合理的致病網絡機制并加以驗證[5]。該方法常應用于藥物靶點設計、疾病發生和預后的預測、精準預防或診療策略的制定等領域[5]。例如,基礎研究發現 FTO 等位基因與肥胖密切相關,然后有研究者[6]在此基礎上,通過整合與分析基因表達、表觀組學、染色體構象等數據發現 FTO 等位基因抑制了脂肪前體細胞的線粒體產熱功能,為肥胖風險等位基因提供了機制學解釋,并據此提出一種對肥胖癥的潛在治療方式,即通過調控包含 ARID5B、rs1421085、IRX3、IRX5 等因子的脂肪細胞產熱調節通路,促進或抑制機體的肥胖進程。然而在假設驅動的病因驗證研究中,先驗假設的合理性可能受到研究者有限的知識儲備和經驗偏倚的影響[7]。
1.1.2 數據驅動的病因研究策略
該策略在不受任何假設限制的情況下,充分利用系統生物學的網絡分析法,構建“暴露因素–組學標志物–疾病結局”網絡模型,并對比不同特征人群分組間如實驗組與對照組分子事件網絡的差異及其效應[5]。數據驅動的病因研究策略在目前以大數據為背景的系統流行病學研究中被廣泛應用,為進一步的實驗驗證、藥物靶點確定、制定精準的預防或診療措施提供理論依據[5]。近年來,國內外多個大型生物樣本庫陸續開放,例如,提供了與 33 種癌癥相關的基因組、表觀遺傳組、轉錄組、蛋白組等多組學信息的癌癥基因組圖譜(The Cancer Genome Atlas,TCGA)以及英國生物樣本庫、百萬退伍軍人計劃、美國“All of us”研究計劃等,均為疾病的機制學研究提供了海量、多源的數據。因此,如何將這些信息整合應用已成為目前數據挖掘研究的熱點問題。
1.2 多組學病因研究中常用的數據整合方法
Pinu 等[8]提出了多組學數據分析與整合的 3 種方法,即系統建模、后分析數據整合和整合數據分析,其中系統建模是對先驗的機制學假設進行驗證的方法,而后分析數據整合和整合數據分析則可用于發現新的生物學機制,是基于數據驅動的病因探索的方法。后分析數據整合是指研究者首先對不同組學的數據集分別進行分析,隨后對關聯節點的重要特征進行分析,然后再將關鍵特征在整體模型中進行整合并構建病因網絡;整合數據分析則是在進行任何數據分析或解釋之前就采用相關分析、多元分析或通路分析等方法對多組學數據進行了合并,有研究者[9]將該方法稱為“統計整合”。值得注意的是,這種整合方法可能會因第一步采取單組學信息篩選而損失組學信息聯合分析才能發現的關聯。在統計整合中,基于通路分析的整合是在流行病學病因研究中最直觀且使用最多的整合方法,它將流行病學與系統生物學更緊密地聯合了起來[10]。通路分析是指以 Ingenuity Pathway Analysis(IPA)、KeyPathwayMinerWeb、Omix 等各類型的通路數據庫為背景,基于通路的匹配對多個平臺的內容進行整合,隨后通過富集分析指認出基因、mRNA、蛋白、小分子代謝產物等多組學分子都集中的通路,同時尋找不同條件之間如機體受到刺激前后或在不同病理生理狀態下出現差異的通路和通路特征,為后續在人群中的驗證和研究提供靶點[11]。通路分析在對多組學數據整合的基礎上為疾病復雜的生物學機制和病因網絡的探索提供了新的思路。因此,有研究者[3, 10]也將系統流行病學定義為將通路分析嵌入到觀察性研究設計中,以促進我們對機體生物學機制和分子通路理解的一門新的學科和領域。然而通路分析僅從網絡層次上簡單地整合了不同來源的數據而并未建立一個有機的整體框架,一些重要的信息如層內的交互作用并未在網絡中體現,從而可能造成一些重要關聯信息的遺漏[5]。因此,仍需對能夠有機整合復雜、多樣化來源數據的研究設計和分析方法進行進一步的探索。
2 多組學數據在疾病風險預測中的研究策略及數據整合方法
2.1 多組學數據在疾病風險預測中的研究策略
近年來,大數據挖掘技術迅速發展,已有眾多研究證實,相較于傳統的利用環境危險因素或臨床檢測指標建立的疾病發病或預后風險預測模型,加入多組學信息后的模型預測準確度提高[12]。由于多組學數據具有數據類型多樣化、數據維度大等特點,因此,建模時第一步需使用降維的方法進行變量選擇以縮小各組學的大小,第二步再通過適宜的方法整合縮減后的數據,以建立最終模型。
2.1.1 通過降維進行多組學數據簡化
數據簡化是建立預測模型的首要步驟,可利用特征提取、特征選擇等技術提高模型準確度和分類器效率,同時降低模型計算的復雜度[13-14]。特征提取,即通過創建主要特征的線性或非線性組合以取代高維的原始數據,常見的方法有線性判別分析、主成分分析、自動編碼器深度學習等;而特征選擇則是通過去除預測模型的冗余噪聲,尋找冗余度最小、相關性最大的特征子集作為模型的輸入變量集,常見的特征選擇方法有濾波式法、封裝器法、嵌入法、混合法等[15]。
2.1.2 通過聯合建模進行多組學數據整合
目前的多組學數據整合方法主要歸為兩類:第一類,多階段分析,即使用多階段逐步的分析策略整合信息,其主要思路是先在兩兩組學之間找到關聯,然后再在組學與表型特征之間找到關聯,逐步獲得層次清晰的因果關系,但此種方式易受到現有知識的限制和影響,無法有效地模擬多水平因素之間同時相互作用的、非線性的復雜關聯[16];第二類,維度融合分析,這是一種將多個組學數據同時進行分析的整合策略[17],分析技術上相對易于實現,維度融合分析中常見的三種形式即基于串聯的整合、基于轉換的整合及基于模型的整合,見圖 1。

2.2 多組學數據在疾病風險預測中常見的 3 種數據整合方法
2.2.1 基于串聯的整合
基于串聯的整合建模,即將多個數據矩陣組合形成一個大的數據矩陣,然后再使用機器學習算法挖掘分析這個合并后的數據集,其中貝葉斯網絡、語法進化神經網絡、多元 Cox-LASSO 等方法較為常見[15]。該策略的一個主要優點是可考慮不同類型組學數據之間的相互作用,已有研究將其用于聯合單核苷酸多態性位點和基因表達來預測血漿中的蛋白水平[18],或用于拷貝數變化、DNA 甲基化、miRNA 與癌癥表型相關基因間的交互作用識別及對表型進行預測[19]。但該種整合形式容易使多組學數據的維度進一步加大,導致進入模型的變量數遠多于樣本數,因此若各組學的變量較多,將不宜使用該方法。Atabaki-Pasdar 等[20]在一項多中心前瞻性隊列研究中利用基因組、轉錄組、蛋白質組、代謝組和臨床檢測數據,使用最小絕對收縮和選擇算子對組學數據進行簡化,再使用隨機森林對變量進行整合,建立非酒精性脂肪肝發生風險預測模型,結果發現,與僅由臨床指標構建的預測模型[AUC=0.79,95%CI(0.76,0.81)] 相比,加入多組學數據后的模型預測性能得到有效提升 [AUC=0.84,95%CI(0.82,0.86)],該研究結果將對非酒精性脂肪肝高危人群的篩查具有重要的實踐價值。
2.2.2 基于轉換的整合
該方法的第一步首先將每個組學數據集轉換成其對應的中間形式如核矩陣或圖,第二步隨即將轉換后的內核或圖進行組合從而建立網絡模型,常見的方法有深度學習算法、K-means 聚類法等[15-16]。基于轉換的整合的最大優點是在中間形式轉換時可保留每個組學數據集的特定屬性,因此,如果每個組學數據集都能找到一個合適的中間形式(內核或圖),則首選該整合策略。Peng 等[21]運用該策略開展了一項多組學研究,首先基于循證證據找到在基因表達、拷貝數變化、甲基化、轉錄等組學中與膀胱癌有顯著關聯的標志物作為各組學的圖核,然后計算各組學的內部特征與圖核的關聯進而生成各組學圖模型,再利用線性回歸模型進一步連接整合各組學圖模型,構建膀胱癌基因異質網絡模型,最后在模型上使用一種改進的傳播算法來識別膀胱癌相關基因。
2.2.3 基于模型的整合
該分析方法首先使用各組學數據作為訓練數據集來構建一系列模型,然后整合利用第一階段的模型來建立綜合模型,常見的方法有貝葉斯網絡、多數投票法、概率因果網絡等[22-23]。需特別注意的是,由于納入最終整合分析的變量是在第一階段各組學數據集的獨立建模過程中進入模型的變量,因此,該種方法可能會因第一階段變量的剔除而導致部分交互作用無法識別。基于模型的整合方法尤其適用于整合高度異構的多組學數據,也可用于基于公共數據構建的多個模型的整合[16]。
3 多組學數據在乳腺癌研究中的應用
目前,多組學數據在乳腺癌研究中的應用多集中在藥物治療靶點識別、亞型判別、預后預測等方面。
在藥物治療靶點的探索中,Pauling 等[24]基于雜交相互作用網絡開發了一套能夠對三陰性乳腺癌多組學數據進行整合的方法,通過對基因表達、蛋白表達、蛋白磷酸化三類組學數據進行整合,最終發現 zyx Ser267 蛋白可作為周期蛋白依賴型激酶 1 在體內磷酸化的作用靶點。Wang 等[25]通過對基因組、轉錄組、甲基化組、臨床指標等多水平數據的整合,對 B 淋巴細胞瘤-2 基因(Bcl-2)家族的分子特征進行了首次系統性分析,將 Bcl-2 家族在乳腺癌中的生物治療靶點范圍擴大到了遠端非編碼區。
在乳腺癌亞型判別方面,基于 TCGA 中乳腺癌分子圖譜進行的分析較為常見,研究者們對 4 種主要乳腺癌亞型(Luminal A、Luminal B、HER-2、三陰性)的特異性多組學標志物進行了識別及整合建模,如 Kim 等[26]利用該數據庫中 465 例乳腺癌患者的基因表達和 DNA 甲基化數據,通過自動編碼器法有效識別了與乳腺癌亞型相關的基因和甲基化變異;Tao 等[22]采用濾波式法簡化 606 例乳腺癌患者的 mRNA、甲基化和拷貝數變異數據并利用多核學習法在各組學數據中生成線性、高斯和多項式核函數,最后合并多個核函數得到乳腺癌亞型分類預測器,指出相較于單組學預測模型,整合多個組學的模型可提高預測準確度。
在乳腺癌預后預測方面,多組學數據同樣具有十分重要的臨床實踐價值。Kim 等[26]使用隨機游走法對 465 例乳腺癌患者的基因表達和 DNA 甲基化數據對乳腺癌的生存時間進行預測;Mihaylov 等[27]利用支持向量機法對 2 000 例患者的微陣列、拷貝數變異數據及臨床指標也對乳腺癌的生存時間進行了預測;Ankney 等[28]通過對乳腺癌基因突變、拷貝數和 mRNA 表達數據進行整合,識別出能夠指示乳腺癌亞型預后的生物標志物,進而更有效精確地對個體的預后風險進行預測,為高風險人群的識別及臨床個性化治療方案的選擇提供了依據。
4 目前多組學研究中的局限性及未來面臨的挑戰
結合多組學信息開展基于人群(自然人群和病例人群)的疾病病因研究、風險預測和發現精準治療靶點的研究是當前系統生物學應用的熱點領域,也有研究者將多組學數據與人群研究相結合的研究稱為系統流行病學。理論上,系統流行病學可為研究者提供揭示因果黑箱的工具,也可提升風險預測模型的準確度,還具有發現治療目標靶點的優勢,但該領域尚處在起步階段,方法學均存在明顯滯后性。首先,因果網狀模型是解釋組學信息的首選理論,但如何構建多組學信息病因網絡仍大多依靠先驗經驗指引。基于人群的觀察性研究還面臨選題及對偏倚和混雜因素控制是否得當的挑戰,這些因素會對發現新的病因層級或闡述組學信息間復雜的交互作用存在影響。其次,組學信息還在不斷發現和完善中,囿于研究者知識和所掌握的組學信息,所獲知的病因關聯和風險模型可能存在可重復性不佳的問題。第三,組學的數據維度較高,但一般樣本量較小,一般分析方法均采取先降維再進行整合的思路,這可能人為造成信息損失,當前機器學習法也會因高維度小樣本數據而出現過擬合現象。第四,應用多組學信息進行發病和預后風險預測,參數越多的模型準確度越高,但應特別注意獲得組學的信息所耗費的檢測費用與模型改善后對患者受益的程度是否匹配,即應考慮多組學預測模型的實際成本效益比。最后,多組學數據還存在各層級數據不平衡、數據復雜、數據集錯誤標記、缺失數據多等問題,這也是限制多組學數據利用的重要原因。因此,需要加強邏輯學、數學和生物醫學的融合,在病因理論和大數據算法上有所突破,才能推動多組學數據在疾病研究中發揮理想作用。