乳腺癌是我國女性中發病率第一位的惡性腫瘤。開展病因研究和乳腺癌風險預測模型研究用于指導一級和二級預防,這一公共衛生策略將使人群健康收益最大化。本文介紹目前我國乳腺癌危險因素及風險預測模型研究現狀,總結針對未來研究的 3 個關鍵切入點:首先,挖掘與我國人群乳腺癌風險相關的可干預危險因素,例如超重和生育控制措施;其次,運用循證醫學和機器學習方法篩選環境-基因危險因素;最后,建立人群乳腺癌危險因素監測平臺,利用真實世界的大樣本人群長期隨訪隊列驗證預測模型有效性。
引用本文: 李佳圓. 中國乳腺癌危險因素研究現況及其風險預測模型研究展望. 中國循證醫學雜志, 2020, 20(7): 745-748. doi: 10.7507/1672-2531.201907141 復制
1 引言
乳腺癌是我國女性中發病率第一位的惡性腫瘤。據中國國家癌癥登記中心報告,中國女性乳腺癌的發病率從 2002 年的 18.7/10 萬人增長至 2014 年的 28.77/10 萬人,發病率上升速率為全球的 2 倍,疾病增長趨勢未得到有效遏制[1-3]。我國女性乳腺癌患者年輕化趨勢明顯,發病平均年齡較西方女性提前近 10 年,并且絕經前患者構成比更高(我國 62.6% vs. 西方 41.9%)[4],說明乳腺癌對我國育齡女性健康威脅更大。雖然我國乳腺癌發病率并不高,但我國成年女性人口數達 4 億以上,每年新發患者可達 28 萬,給個人、家庭及社會帶來較為沉重的疾病負擔。
我國政府十分重視乳腺癌的防控工作,原國家衛生計生委、發展改革委等 16 個部門于 2015 年聯合印發的《中國癌癥防治三年行動計劃(2015~2017 年)》(國衛疾控發〔2015〕78 號)中[5],乳腺癌已被列為我國腫瘤防治的重點疾病之一。自 2009 年起,國家財政每年資助“中國農村兩癌篩查”項目。2019 年 6 月,國務院印發的《關于實施健康中國行動意見》(國發〔2019〕13 號)中再次強調“推進農村婦女宮頸癌和乳腺癌檢查” [6]。2017 年,國家科技部、原衛生計生委和財政部聯合啟動了全國的乳腺癌精準醫學項目,開始著手建立 5 萬人的自然人群隊列和 5 萬患者的乳腺癌專病隊列,用于我國乳腺癌精準預防和精準治療的研究。
2 乳腺癌病因及風險預測研究現況
2.1 乳腺癌病因
乳腺癌是臨床異質性較強、病因復雜的全身疾病,根據癌細胞的起源或分子特征,分為 4 種分子亞型,即 luminal A/B、Her-2 過表達和三陰型。同時,乳腺癌也是環境-遺傳易感因素共同作用的結果,病因包括:性激素相關因素、肥胖、其他環境暴露因素和遺傳因素。雌激素過度暴露可能增加乳腺癌的患病風險。游離雌激素(E2)暴露增加,會增加前致癌物半醌或醌的水平或刺激增強雌激素受體(estrogen receptor,ER)的活性,從而加劇細胞增殖或分化,增加 DNA 復制過程中的錯誤機率;早期終止妊娠可能導致催乳素缺乏,導致已增殖的乳腺細胞不能有效分化而停滯,從而增加乳腺細胞對致癌物的敏感性;圍絕經期女性采用雌激素替代療法(hormone replacement therapy,HRT)或育齡女性口服避孕藥(oral contraceptive,OC)均會導致體內雌激素和孕激素的濃度遠高于自然情況下的內源性雌、孕激素水平。因此,月經初潮早、絕經年齡晚、未生育、初產年齡晚、未哺乳、多次流產、HRT 或 OC 治療等均是被廣泛關注的乳腺癌危險因素。此外,大量的體內外實驗和人群研究已證明超重和肥胖可通過改變多種蛋白或激素的表達,從而參與乳腺癌的細胞轉化、增殖、血管生成及腫瘤轉移路徑,影響乳腺癌的發生發展[7]。
2.2 我國乳腺癌病因研究現狀
2.2.1 環境危險因素
目前我國較有代表性的乳腺癌流行病病因研究中包括:全國 10 年多中心醫院研究、華東 4 省乳腺癌橫斷面調查、上海出生隊列、浙江嘉善縣隊列[8-11],這些研究獲得了較為一致的危險因素清單:年齡、行經時間長、初產年齡晚、多次人工/藥物流產史、既往良性乳腺疾病史、一/二級親屬患腫瘤史、超重/肥胖。但除流產次數>3 次的相對危險度較高外,其他危險因素的相對風險均較低(OR 或 HR 均<1.5),這與陶蘋等[12]對亞裔女性乳腺癌危險因素的 Meta 分析結果一致。2009 年 IARC 報告將吸煙更新為“證據有限的乳腺癌病因”,周曉彬等[13]關于被動吸煙的 Meta 分析顯示,中國女性被動吸煙的風險約為無被動吸煙者的 2 倍[OR=1.94,95%CI(1.80,2.10)]。其他研究關注了飲酒、電離輻射、環境內分泌干擾物及膳食因素等因素,但由于在一般人群中以上暴露差異較小,暫未觀察到有統計學意義的歸因風險。
2.2.2 遺傳因素
乳腺癌有較明顯的家族遺傳性,一級親屬中有 1~3 位乳腺癌患者的女性其乳腺癌發病風險分別為無家族史女性的 1.80~3.90 倍[7]。遺傳性乳腺癌具有發病年齡早、雙側乳房發生腫瘤概率高等特點。BRCA1 和 BRCA2 的突變與遺傳性乳腺癌的發生有關,但 BRCA 細胞系基因突變率存在顯著的種族差異,如在亞裔中僅為 0.1%~0.3%。中國一項包含 507 例散發乳腺癌患者的研究顯示,患者中攜帶 BRCA1/2 基因有害突變的概率僅為 9.9%[14]。同時,既往研究顯示[15],其他胚系突變中的中高度外顯基因,包括 TP53、PTEN、ATM、CHEK2、NBS1、RAD50、BRIP 和 PALB2,以及其他低外顯率基因,包括 CYP17、CYP19、COMT、SULT1A1、GSTM1 雌激素合成代謝、環境致癌物代謝及 DNA 損傷修復等相關基因,也可能與乳腺癌的發病有關。但目前多數研究只關注某一個或少數幾個易感基因的影響,且上述易感基因位點的效應強度在不同研究中的結論也不一致,這可能與單基因的效應危險度較低、未考慮基因的聯合作用等原因有關,因此暫不能為乳腺癌高危人群基因篩查方案的制定提供充分的研究依據。上海一項大樣本(患者 3 472 例,對照 3 595 例)GWAS 相關性研究發現,有 8 個基因在兩組間有顯著性差異(P<0.05),其中 BRCA2、EFEMP2 和 FBXO18 的 SNP 突變差異顯著性達 10?3,可能增加乳腺癌的發病風險,然而通過 GAWS 篩選出的其他 SNPs 的功能學意義目前尚不明確,其是否與環境危險因素存在聯合作用也有待驗證[16]。
2.3 我國乳腺癌篩查現狀
乳腺癌的病因研究成果主要用于匯總各危險因素的風險效應,對個體的疾病風險進行綜合量化估計。在國外的癌癥防治工作中,已運用 Gail(預測值>1.66%)、BRCAPRO 和 BOADICEA(增加 BRCA1/BRCA2 突變基因型預測)等模型評估女性的 5 年或終生乳腺癌患病風險,并根據風險評估結果,提供相應的藥物和手術預防措施及針對性的一般風險人群和高危人群乳腺癌篩查方案[17-19],從而有效提高了篩查項目的衛生收益,不僅使 2008~2012 年美國的乳腺癌發病率保持穩定,還使 1998~2012 年間的乳腺癌死亡率下降了 36%[20]。但目前我國還沒有形成乳腺癌預防的風險分級管理指南。首先,目前發現的內源或外源環境因素對乳腺癌發病風險解釋度較低,尚缺乏可控因素的切入點。其次,我國乳腺癌以散發為主,遺傳性乳腺癌患者中暫未發現指示性較強的特征基因,因此難以判定預防性治療的目標人群。最后,就我國腫瘤早診早治項目的開展現況來看,我國“農村婦女兩癌篩查”項目面向 35~64 歲農村女性采取乳腺超聲串聯 X 線攝影檢查的篩查方案,該項目歷時 10 年,已覆蓋全國 953 個縣(區、市),累積篩查 1 022.3 萬例農村女性[21, 22],雖然該項目大大提高了公眾防治乳腺癌的意識,但因其乳腺癌陽性發現率僅為 0.52/1 000 人[23],發現 1 例患者的經濟成本較高,在我國推行乳腺癌篩查全人群策略成本-效用比較低。
3 我國未來乳腺癌風險預測研究的展望
因此,針對我國人口基數大、發病率低、患者絕對數多且多為散發、缺乏一級預防的切入點等問題,有必要將病因研究的成果轉為乳腺癌風險評估的工具,用于指導高危人群篩查,這將是使人群獲得最大健康收益的公共衛生策略。然而,目前構建我國乳腺癌風險評估模型的研究基礎不足,尚有以下 3 個關鍵問題亟待研究解決。
3.1 挖掘與我國人群乳腺癌風險相關的可干預危險因素
首先,中國女性的超重肥胖流行趨勢日益嚴峻[24],而肥胖作為乳腺癌少有的可干預因素之一[25],應予以特別關注。中國北方隊列研究(26 643 例女性)、上海健康隊列(74 943 例女性)、開灤隊列(68 253 例女性)以及一項納入 18 篇文獻(患者 7 217 例,對照 81 605 例)的系統評價結果均提示:超重、肥胖(超重:BMI≥24 kg/m2,肥胖:BMI≥28.0 kg/m2)可中等強度地增加女性絕經前后患癌風險(HR 或 OR:1.37~3.40)[26, 27]。上海糖尿病隊列研究發現,成年早期至中年期體重增加較快也會增加中年后乳腺癌患病風險[28],因此,開展體重波動與乳腺癌患病風險的病因研究顯得尤為重要。其次,我國自 20 世紀 80 年代起執行了較嚴格的生育控制措施,2018 年起,我國開始執行鼓勵二孩的生育政策,因此,應關注不同的生育控制方法(如人工流產、藥物流產、口服長/短效或緊急 OC、安置宮內節育器)[29]和生育間隔期長短對育齡期女性患癌風險的影響。最后,今后應針對不同分子亞型的乳腺癌進行深入的病因學研究,以期探究不同分子亞型乳腺癌的風險因素,從而提高干預或預測的精準性。
3.2 運用循證和機器學習方法篩選環境-基因風險因素和劃分暴露截斷值
目前流行病學已積累了大量有關乳腺癌危險因素及效應值估計的研究證據,從研究設計來看,多為獨立樣本的患者對照研究,也有少數隊列研究,各個研究的危險因素相似,但劃分的暴露截斷值卻各不相同,以“初潮年齡早”為例,有研究分別采用<12 歲、<14 歲或<16 歲作為截斷值,也有研究采用連續性變量開展研究。應用傳統的 Meta 分析和劑量-反應 Meta 分析方法[30],充分整合同類因素的研究證據,估計不同暴露截斷值的綜合效應,可作為篩選變量的依據,大大提高研究效率。同時,乳腺癌的遺傳因素對發病風險的貢獻應予以關注,通過篩選有統計學差異的 SNPs 位點,計算 PRS 評分來識別遺傳性乳腺癌的高風險人群,再用于指導篩查策略,是后 GWAS 時代乳腺癌精準預防的主要研究方向之一。在構建 PRS 評分方法上,計算機深度學習法,如隨機森林法、神經網絡法、XG-boost 法等,可以解決分子標志物數據多維度、共線性強、關聯復雜的問題,獲得較為穩健的預測效果。但值得注意的是,目前發現的差顯基因對以環境因素為主的風險預測模型的改善程度非常有限,如我們前期研究發現,納入 COMT、BRCA1、ESR1、CYP19、CYP1B1 幾個基因后,相對風險預測模型的 AUC 僅從 0.632 提升到 0.658;即便是增加 BRCA1/2/u 高危基因型后的針對白種人的 IBIS/BRCAPRO/BOADICEA 預測模型,相較于經典的 Gail 模型,其 AUC 也沒有明顯變化,甚至部分模型 AUC 降低(AUC 分別為 0.767、0.737、0.716 vs. 0.735)。加之易感基因檢測的費用昂貴(3 000 美元)[15],因此,面向全人群的惡性腫瘤的發病風險評估模型采用的預測因子應該是便于收集、經濟、測量方法簡便的個體生物、行為或環境暴露特征,而不宜夸大易感基因的預測效果。
3.3 建立乳腺癌危險因素監測平臺,利用大人群長期隨訪隊列驗證預測模型有效性
我國的研究者利用北京、廣州、上海和山東的患者對照研究或局部地區的隨訪隊列數據建立了乳腺癌發病的環境或環境-基因的相對或絕對發病預測模型,但這些模型尚缺乏外部驗證,難以保證模型的準確性[31-33]。結合 Gail 模型的構建經驗和中國乳腺癌低發病率的特點,若建立適用于中國女性人群的風險預測模型,需在覆蓋全國不同區域的大樣本長期隨訪隊列(10 萬/區域的人群至少觀察 5 年以上)的基礎上,采用符合疾病特征的標準化的危險因素收集策略,才能有效開展預測模型的構建和驗證研究。或采用間接估算法,結合危險因素系統綜合后的危險度估計值與腫瘤監測年齡別發病率,建立初步的預測模型[34],再經大樣本隊列長期隨訪數據進行驗證和完善。
3.4 總結
2017 年起,在國家科技部的資助下,我國已建立了 5 個大的自然人群隊列和 1 個乳腺癌專病隊列。此外,我國連續 10 年的“農村婦女兩癌篩查”項目已覆蓋 1 022.3 萬例女性。未來可采用統一標準化的隊列研究建設標準,整合和共享以上隊列資源,并利用 5G 網絡及“互聯網+”技術輔助信息采集,建立乳腺癌的危險因素收集、風險評估研究及擴大模型驗證研究平臺,以進一步推動我國一般人群和高危人群的乳腺癌分級管理策略研究。
1 引言
乳腺癌是我國女性中發病率第一位的惡性腫瘤。據中國國家癌癥登記中心報告,中國女性乳腺癌的發病率從 2002 年的 18.7/10 萬人增長至 2014 年的 28.77/10 萬人,發病率上升速率為全球的 2 倍,疾病增長趨勢未得到有效遏制[1-3]。我國女性乳腺癌患者年輕化趨勢明顯,發病平均年齡較西方女性提前近 10 年,并且絕經前患者構成比更高(我國 62.6% vs. 西方 41.9%)[4],說明乳腺癌對我國育齡女性健康威脅更大。雖然我國乳腺癌發病率并不高,但我國成年女性人口數達 4 億以上,每年新發患者可達 28 萬,給個人、家庭及社會帶來較為沉重的疾病負擔。
我國政府十分重視乳腺癌的防控工作,原國家衛生計生委、發展改革委等 16 個部門于 2015 年聯合印發的《中國癌癥防治三年行動計劃(2015~2017 年)》(國衛疾控發〔2015〕78 號)中[5],乳腺癌已被列為我國腫瘤防治的重點疾病之一。自 2009 年起,國家財政每年資助“中國農村兩癌篩查”項目。2019 年 6 月,國務院印發的《關于實施健康中國行動意見》(國發〔2019〕13 號)中再次強調“推進農村婦女宮頸癌和乳腺癌檢查” [6]。2017 年,國家科技部、原衛生計生委和財政部聯合啟動了全國的乳腺癌精準醫學項目,開始著手建立 5 萬人的自然人群隊列和 5 萬患者的乳腺癌專病隊列,用于我國乳腺癌精準預防和精準治療的研究。
2 乳腺癌病因及風險預測研究現況
2.1 乳腺癌病因
乳腺癌是臨床異質性較強、病因復雜的全身疾病,根據癌細胞的起源或分子特征,分為 4 種分子亞型,即 luminal A/B、Her-2 過表達和三陰型。同時,乳腺癌也是環境-遺傳易感因素共同作用的結果,病因包括:性激素相關因素、肥胖、其他環境暴露因素和遺傳因素。雌激素過度暴露可能增加乳腺癌的患病風險。游離雌激素(E2)暴露增加,會增加前致癌物半醌或醌的水平或刺激增強雌激素受體(estrogen receptor,ER)的活性,從而加劇細胞增殖或分化,增加 DNA 復制過程中的錯誤機率;早期終止妊娠可能導致催乳素缺乏,導致已增殖的乳腺細胞不能有效分化而停滯,從而增加乳腺細胞對致癌物的敏感性;圍絕經期女性采用雌激素替代療法(hormone replacement therapy,HRT)或育齡女性口服避孕藥(oral contraceptive,OC)均會導致體內雌激素和孕激素的濃度遠高于自然情況下的內源性雌、孕激素水平。因此,月經初潮早、絕經年齡晚、未生育、初產年齡晚、未哺乳、多次流產、HRT 或 OC 治療等均是被廣泛關注的乳腺癌危險因素。此外,大量的體內外實驗和人群研究已證明超重和肥胖可通過改變多種蛋白或激素的表達,從而參與乳腺癌的細胞轉化、增殖、血管生成及腫瘤轉移路徑,影響乳腺癌的發生發展[7]。
2.2 我國乳腺癌病因研究現狀
2.2.1 環境危險因素
目前我國較有代表性的乳腺癌流行病病因研究中包括:全國 10 年多中心醫院研究、華東 4 省乳腺癌橫斷面調查、上海出生隊列、浙江嘉善縣隊列[8-11],這些研究獲得了較為一致的危險因素清單:年齡、行經時間長、初產年齡晚、多次人工/藥物流產史、既往良性乳腺疾病史、一/二級親屬患腫瘤史、超重/肥胖。但除流產次數>3 次的相對危險度較高外,其他危險因素的相對風險均較低(OR 或 HR 均<1.5),這與陶蘋等[12]對亞裔女性乳腺癌危險因素的 Meta 分析結果一致。2009 年 IARC 報告將吸煙更新為“證據有限的乳腺癌病因”,周曉彬等[13]關于被動吸煙的 Meta 分析顯示,中國女性被動吸煙的風險約為無被動吸煙者的 2 倍[OR=1.94,95%CI(1.80,2.10)]。其他研究關注了飲酒、電離輻射、環境內分泌干擾物及膳食因素等因素,但由于在一般人群中以上暴露差異較小,暫未觀察到有統計學意義的歸因風險。
2.2.2 遺傳因素
乳腺癌有較明顯的家族遺傳性,一級親屬中有 1~3 位乳腺癌患者的女性其乳腺癌發病風險分別為無家族史女性的 1.80~3.90 倍[7]。遺傳性乳腺癌具有發病年齡早、雙側乳房發生腫瘤概率高等特點。BRCA1 和 BRCA2 的突變與遺傳性乳腺癌的發生有關,但 BRCA 細胞系基因突變率存在顯著的種族差異,如在亞裔中僅為 0.1%~0.3%。中國一項包含 507 例散發乳腺癌患者的研究顯示,患者中攜帶 BRCA1/2 基因有害突變的概率僅為 9.9%[14]。同時,既往研究顯示[15],其他胚系突變中的中高度外顯基因,包括 TP53、PTEN、ATM、CHEK2、NBS1、RAD50、BRIP 和 PALB2,以及其他低外顯率基因,包括 CYP17、CYP19、COMT、SULT1A1、GSTM1 雌激素合成代謝、環境致癌物代謝及 DNA 損傷修復等相關基因,也可能與乳腺癌的發病有關。但目前多數研究只關注某一個或少數幾個易感基因的影響,且上述易感基因位點的效應強度在不同研究中的結論也不一致,這可能與單基因的效應危險度較低、未考慮基因的聯合作用等原因有關,因此暫不能為乳腺癌高危人群基因篩查方案的制定提供充分的研究依據。上海一項大樣本(患者 3 472 例,對照 3 595 例)GWAS 相關性研究發現,有 8 個基因在兩組間有顯著性差異(P<0.05),其中 BRCA2、EFEMP2 和 FBXO18 的 SNP 突變差異顯著性達 10?3,可能增加乳腺癌的發病風險,然而通過 GAWS 篩選出的其他 SNPs 的功能學意義目前尚不明確,其是否與環境危險因素存在聯合作用也有待驗證[16]。
2.3 我國乳腺癌篩查現狀
乳腺癌的病因研究成果主要用于匯總各危險因素的風險效應,對個體的疾病風險進行綜合量化估計。在國外的癌癥防治工作中,已運用 Gail(預測值>1.66%)、BRCAPRO 和 BOADICEA(增加 BRCA1/BRCA2 突變基因型預測)等模型評估女性的 5 年或終生乳腺癌患病風險,并根據風險評估結果,提供相應的藥物和手術預防措施及針對性的一般風險人群和高危人群乳腺癌篩查方案[17-19],從而有效提高了篩查項目的衛生收益,不僅使 2008~2012 年美國的乳腺癌發病率保持穩定,還使 1998~2012 年間的乳腺癌死亡率下降了 36%[20]。但目前我國還沒有形成乳腺癌預防的風險分級管理指南。首先,目前發現的內源或外源環境因素對乳腺癌發病風險解釋度較低,尚缺乏可控因素的切入點。其次,我國乳腺癌以散發為主,遺傳性乳腺癌患者中暫未發現指示性較強的特征基因,因此難以判定預防性治療的目標人群。最后,就我國腫瘤早診早治項目的開展現況來看,我國“農村婦女兩癌篩查”項目面向 35~64 歲農村女性采取乳腺超聲串聯 X 線攝影檢查的篩查方案,該項目歷時 10 年,已覆蓋全國 953 個縣(區、市),累積篩查 1 022.3 萬例農村女性[21, 22],雖然該項目大大提高了公眾防治乳腺癌的意識,但因其乳腺癌陽性發現率僅為 0.52/1 000 人[23],發現 1 例患者的經濟成本較高,在我國推行乳腺癌篩查全人群策略成本-效用比較低。
3 我國未來乳腺癌風險預測研究的展望
因此,針對我國人口基數大、發病率低、患者絕對數多且多為散發、缺乏一級預防的切入點等問題,有必要將病因研究的成果轉為乳腺癌風險評估的工具,用于指導高危人群篩查,這將是使人群獲得最大健康收益的公共衛生策略。然而,目前構建我國乳腺癌風險評估模型的研究基礎不足,尚有以下 3 個關鍵問題亟待研究解決。
3.1 挖掘與我國人群乳腺癌風險相關的可干預危險因素
首先,中國女性的超重肥胖流行趨勢日益嚴峻[24],而肥胖作為乳腺癌少有的可干預因素之一[25],應予以特別關注。中國北方隊列研究(26 643 例女性)、上海健康隊列(74 943 例女性)、開灤隊列(68 253 例女性)以及一項納入 18 篇文獻(患者 7 217 例,對照 81 605 例)的系統評價結果均提示:超重、肥胖(超重:BMI≥24 kg/m2,肥胖:BMI≥28.0 kg/m2)可中等強度地增加女性絕經前后患癌風險(HR 或 OR:1.37~3.40)[26, 27]。上海糖尿病隊列研究發現,成年早期至中年期體重增加較快也會增加中年后乳腺癌患病風險[28],因此,開展體重波動與乳腺癌患病風險的病因研究顯得尤為重要。其次,我國自 20 世紀 80 年代起執行了較嚴格的生育控制措施,2018 年起,我國開始執行鼓勵二孩的生育政策,因此,應關注不同的生育控制方法(如人工流產、藥物流產、口服長/短效或緊急 OC、安置宮內節育器)[29]和生育間隔期長短對育齡期女性患癌風險的影響。最后,今后應針對不同分子亞型的乳腺癌進行深入的病因學研究,以期探究不同分子亞型乳腺癌的風險因素,從而提高干預或預測的精準性。
3.2 運用循證和機器學習方法篩選環境-基因風險因素和劃分暴露截斷值
目前流行病學已積累了大量有關乳腺癌危險因素及效應值估計的研究證據,從研究設計來看,多為獨立樣本的患者對照研究,也有少數隊列研究,各個研究的危險因素相似,但劃分的暴露截斷值卻各不相同,以“初潮年齡早”為例,有研究分別采用<12 歲、<14 歲或<16 歲作為截斷值,也有研究采用連續性變量開展研究。應用傳統的 Meta 分析和劑量-反應 Meta 分析方法[30],充分整合同類因素的研究證據,估計不同暴露截斷值的綜合效應,可作為篩選變量的依據,大大提高研究效率。同時,乳腺癌的遺傳因素對發病風險的貢獻應予以關注,通過篩選有統計學差異的 SNPs 位點,計算 PRS 評分來識別遺傳性乳腺癌的高風險人群,再用于指導篩查策略,是后 GWAS 時代乳腺癌精準預防的主要研究方向之一。在構建 PRS 評分方法上,計算機深度學習法,如隨機森林法、神經網絡法、XG-boost 法等,可以解決分子標志物數據多維度、共線性強、關聯復雜的問題,獲得較為穩健的預測效果。但值得注意的是,目前發現的差顯基因對以環境因素為主的風險預測模型的改善程度非常有限,如我們前期研究發現,納入 COMT、BRCA1、ESR1、CYP19、CYP1B1 幾個基因后,相對風險預測模型的 AUC 僅從 0.632 提升到 0.658;即便是增加 BRCA1/2/u 高危基因型后的針對白種人的 IBIS/BRCAPRO/BOADICEA 預測模型,相較于經典的 Gail 模型,其 AUC 也沒有明顯變化,甚至部分模型 AUC 降低(AUC 分別為 0.767、0.737、0.716 vs. 0.735)。加之易感基因檢測的費用昂貴(3 000 美元)[15],因此,面向全人群的惡性腫瘤的發病風險評估模型采用的預測因子應該是便于收集、經濟、測量方法簡便的個體生物、行為或環境暴露特征,而不宜夸大易感基因的預測效果。
3.3 建立乳腺癌危險因素監測平臺,利用大人群長期隨訪隊列驗證預測模型有效性
我國的研究者利用北京、廣州、上海和山東的患者對照研究或局部地區的隨訪隊列數據建立了乳腺癌發病的環境或環境-基因的相對或絕對發病預測模型,但這些模型尚缺乏外部驗證,難以保證模型的準確性[31-33]。結合 Gail 模型的構建經驗和中國乳腺癌低發病率的特點,若建立適用于中國女性人群的風險預測模型,需在覆蓋全國不同區域的大樣本長期隨訪隊列(10 萬/區域的人群至少觀察 5 年以上)的基礎上,采用符合疾病特征的標準化的危險因素收集策略,才能有效開展預測模型的構建和驗證研究。或采用間接估算法,結合危險因素系統綜合后的危險度估計值與腫瘤監測年齡別發病率,建立初步的預測模型[34],再經大樣本隊列長期隨訪數據進行驗證和完善。
3.4 總結
2017 年起,在國家科技部的資助下,我國已建立了 5 個大的自然人群隊列和 1 個乳腺癌專病隊列。此外,我國連續 10 年的“農村婦女兩癌篩查”項目已覆蓋 1 022.3 萬例女性。未來可采用統一標準化的隊列研究建設標準,整合和共享以上隊列資源,并利用 5G 網絡及“互聯網+”技術輔助信息采集,建立乳腺癌的危險因素收集、風險評估研究及擴大模型驗證研究平臺,以進一步推動我國一般人群和高危人群的乳腺癌分級管理策略研究。