引用本文: 刁莎, 侯璨, 鐘曉蓉, 李芹, 李旭, 周敏, 袁雪蓮, 易芳, 李佳昌, 郝宇, 李佳圓. 女性乳腺癌的絕對風險預測模型研究. 中國循證醫學雜志, 2019, 19(12): 1388-1394. doi: 10.7507/1672-2531.201907008 復制
據國家癌癥中心報告顯示,較《2016 中國腫瘤登記年報》[1],2018 年乳腺癌年齡標化發病率上升 0.35/10 萬,位居女性惡性腫瘤發病率榜首,且中國每年女性乳腺癌死亡數占世界女性乳腺癌死亡總數的 9.6%[2],乳腺癌已成為嚴重威脅我國女性健康的疾病之一。
發達國家將乳腺癌發病風險分級評價與乳腺癌鉬靶篩查策略相結合,輔以不斷提高的治療水平,2000~2014 年乳腺癌發病率保持穩定,死亡率呈下降趨勢,截至 2015 年,死亡率下降 39%[3]。我國乳腺癌雖然發病率不高,但由于人口基數大,新發病例數呈持續增長趨勢[4],故采取乳腺癌風險分級管理是最具衛生經濟學效益的策略,因此,有必要構建一套適用于中國人群的乳腺癌風險預測模型。目前,中國的乳腺癌風險評估模型尚處于探索階段,有研究者利用 logistic 回歸、神經網絡等技術建立了相對風險預測模型,但其解釋性、操作性不強[5,6];有研究者套用 Cuzick-Tyrer 等的國外風險預測模型,但由于人種和危險因素異質性,預測結果不佳[7,8]。Gail 模型是西方國家應用最廣、驗證最為成熟的模型[9-12]。但在我國的驗證結果顯示診斷的靈敏度波動范圍較大(11.33%~95.10%)[13,14],曲線下面積(area under the curve,AUC)偏低(0.536~0.682)[7,8,15],且會高估中國女性乳腺癌患病風險[E/O(預測值/觀察值)=2.09][16]。
因此,有必要基于中國女性危險因素特征,建立適用于中國女性的風險預測模型。由于中國國內基因檢測的費用較高,普適性不強,且乳腺癌常見的易感基因BRCA1和BRCA2在中國家族性乳腺癌患者中的突變率遠低于白種女性(3.9% vs. 20.0%)[17],因此本研究將根據四川省女性的乳腺癌危險因素特征,基于常見乳腺癌環境危險因素構建女性乳腺癌 5 年發病絕對風險預測模型,以期為提高乳腺癌篩查效率,從而實現早診早治,減少乳腺癌死亡率提供依據。
1 資料與方法
1.1 研究對象
病例組來源于 2000~2017 年就診于四川大學華西醫院,居住在四川地區,經組織病理學診斷為原發性乳腺癌的漢族女性,排除有精神疾病史和復發或轉移性乳腺癌患者,共 2 747 例。由于四川大學華西醫院良好的醫療資源和較高水準的醫療技術,該醫院的病例來源能較好地涵蓋四川省多個地區就診人群。對照組來源自 2009~2012 年四川省婦幼中心以及 2015~2017 年成都市雙流區婦幼保健院的乳腺癌篩查隊列人群。納入在四川地區居住≥3 年,經超聲或鉬靶檢查診斷為非乳腺癌的漢族女性,排除有精神疾病史以及其他惡性腫瘤的研究對象,共 6 307 例。由于四川省婦幼中心和成都市雙流婦幼保健院分別位于成都市區和周邊郊縣,上述對照來源能較好地涵蓋四川省城鄉健康人群。
1.2 變量信息和數據收集
本課題組統一編制了乳腺癌危險因素調查表,經統一培訓的調查員收集病例組和對照組信息,包括基本人口學特征、生殖生育因素等,采用 Epidata 3.2 軟件,采用盲法雙錄入建立數據庫,病例組人群部分變量信息則從醫院系統直接導出。
1.3 統計分析
1.3.1 基本特征和危險因素描述
對各變量分布特征進行描述與比較,定量資料若服從正態分布,則采用均值±標準差表示,用t檢驗進行假設檢驗;否則采用中位數(四分位數)表示,用秩和檢驗進行假設檢驗。定性資料則采用頻數(構成比)表示,用卡方檢驗進行假設檢驗。
1.3.2 構建決策樹篩選危險因素
由于各環境因素間可能存在交互作用和共線性,因此本研究采用決策樹篩選有代表性的危險因素。將研究對象按 2∶1 分為訓練集和驗證集,在訓練集中用決策樹篩選危險因素,并采用驗證集數據對決策樹模型效果進行評價,評價指標為:靈敏度、特異度、準確性、精確率、F1 評分、E/O 以及 AUC。
1.3.3 絕對風險預測模型構建與評估
Gail 絕對風險估算公式如下,其基本原理為個體暴露于各單因素的風險值累加[18]:
![]() |
表示年齡為a的女性在暴露于某種危險因素
的情況下,截止τ年時,其增加的乳腺癌絕對風險,本研究τ為 5 年,因此表示未來 5 年發病風險;
表示j年齡段內的女性乳腺癌基線風險,需要用
×(1?PAR%)估計,其中
表示各年齡段女性自然人群乳腺癌發病率,可基于統計數據獲得;PAR%(Population Attributable Risk,PAR)是危險因素
的人群歸因危險度,需要通過公式估算;
表示j年齡段內的女性非乳腺癌死亡競爭風險,可基于統計數據中女性全死因死亡率和女性乳腺癌死亡率的差值進行估計[1,19];
表示j年齡段內暴露于危險因素
的相對危險度 RR,在發病率<5% 的疾病研究中,可用 OR 值代替 RR 值。為便于計算,根據文獻提示,最后一項
可取 1[18]。因此,估算乳腺癌 5 年發病風險,除可通過統計數據直接獲得的參數值外,需額外計算 OR 和 PAR% 值。① OR 值計算:本研究將根據決策樹輸出路徑定義一個新變量 M,該新變量將以啞變量形式納入 logistic 回歸估計 OR 值。② PAR% 值計算:根據 Paolo Bruzzi 等[20,21]提供的算法,某危險因素 PAR% 可通過 logistic 回歸系數和Pj(case)獲得,計算公式如下:
![]() |
其中Dj表示第j層的病例數,D表示總的病例數,Dj/D即為Pj(case),表示第j層病例數占總病例數的比例,Rj表示第j層的相對危險度,β表示 logistic 回歸系數,zj表示第j層暴露狀態對應的指示變量,z0表示對照組對應的指示變量。
利用 OR、PAR% 值和中國腫瘤登記數據,根據 Gail 提出的絕對風險計算公式(公式 1),估計訓練集中所有個體 5 年患病絕對風險概率,繪制 ROC 曲線在訓練集中尋找最佳截斷值,并在驗證集中對上述絕對風險模型預測效果進行評價。
2 結果
2.1 納入患者的基本特征和危險因素分布描述
共納入 9 054 例女性,其中病例組 2 747 例,對照組 6 307 例,病例組中位年齡 58 歲,對照組中位年齡 54 歲。兩組人群除 BMI 外,其他危險因素的差異均具有統計學意義,結果見表 1。

2.2 構建決策樹模型篩選危險因素
決策樹模型的輸出結果如圖 1 所示,共輸出 4 個變量、6 條路徑。4 個變量為城鄉來源、活產次數、年齡和初潮年齡。利用驗證集對決策樹進行驗證,結果見表 2。驗證后的決策樹模型靈敏度 0.79,特異度 0.73,精確率 0.57,準確性 0.75,F1 評分 0.66,E/O=1.40,AUC 為 0.80。以上結果顯示,篩選出來的 4 個危險因素對乳腺癌的發病風險預測效果較好,可繼續用于后續絕對風險預測模型的構建。

source:城鄉來源;age:年齡;birthnum:活產次數;menarche:初潮年齡;條形圖表示患乳腺癌的相對概率,全灰和全黑分別表示相對概率為 0、1,黑白相間的相對概率為 0~1。

2.3 絕對風險預測模型構建與評估
2.3.1 相對危險度 OR 值估計
根據輸出路徑數目定義的新變量 M,取值 0~5,每一條輸出路徑則對應其中一個取值,該變量以啞變量的形式輸入作為自變量,OR 值見表 3。

2.3.2 估算人群歸因危險度
根據相關研究關于人群歸因危險度的計算方法[20,21],新變量 M 的人群歸因危險度值見表 4。

2.3.3 估算 5 年發病風險
參照 Gail 絕對風險概率算法(公式 1),基于訓練樣本計算所有個體乳腺癌 5 年發病風險概率。對照組 5 年發病風險概率值中位數 0.027%,四分位數間距 0.137%,病例組 5 年發病風險概率值中位數 0.219%,四分位數間距 0.256%,利用 ROC 曲線尋找到的最佳截斷值為 0.100%,結果見圖 2。

3 討論
本研究基于四川省女性特征初步探索建立乳腺癌 5 年發病絕對風險預測模型的構建方法,結果顯示,絕對風險預測模型靈敏度為 0.79,特異度為 0.73,精確率為 0.57,準確率為 0.75,F1 評分為 0.66,E/O=1.40,AUC 為 0.79,模型預測效果良好。預測因素包括城鄉來源、活產次數、年齡和初潮年齡,當女性人群的 5 年發病風險≥0.100% 時將判斷為乳腺癌發病高風險,可由此甄別低、高危人群并實施分級管理。
從決策樹輸出路徑可知,城鎮居民、年齡≥56 歲或初潮年齡≤14 歲或活產次數越多,乳腺癌患病相對風險越高。中國腫瘤登記年報顯示,城鎮地區的乳腺癌年齡標準發病率是農村地區的兩倍多(每 10 萬婦女 34.3 例vs.每 10 萬婦女 17.0 例),這可能是由于生活方式和經濟水平的差異導致[2]。年齡是腫瘤發生發展的重要危險因素,年齡越大,腫瘤發病風險越高[22]。中國腫瘤登記年報也顯示,中國女性乳腺癌發病風險隨年齡增長而增加,發病高峰年齡為 45~55 歲[1,2]。本研究發現,女性年齡大于 56 歲,其平均發病風險更高。乳腺癌是一種激素依賴性腫瘤,雌激素和孕激素分別為乳腺癌發病的刺激因素和保護因素,初潮年齡越早,個體暴露于雌激素的時間越長,雌激素對乳腺組織促生長作用時間越久,越容易發生乳腺癌[23]。Khalis 等[24]對 237 對摩洛哥病例對照人群進行乳腺癌生殖生育相關危險因素研究,結果顯示初潮年齡≤13 歲是乳腺癌的危險因素[OR=1.60,95%CI(1.08,2.38)]。Rajbongshi 等[25]對 100 對印度女性進行病例對照研究,發現初潮年齡>12 歲是乳腺癌的保護因素[OR=0.438,95%CI(0.233,0.820)]。本研究結果顯示初潮年齡越早,乳腺癌發病風險越高,且以 14 歲為截點,與上述研究結論一致。此外,生育歷來被認為是乳腺癌的保護因素,其原因是生育經歷會減少雌激素的作用時間[24],但也有研究顯示生育次數越多會增加乳腺癌的患病風險。Lambe 等[26]利用瑞典全國隊列中的城市女性,通過病例對照研究(病例vs.對照:12 666 例 vs. 62 121 例),發現相較于未生育的女性而言,生育會使女性短期(≤15 年)內的乳腺癌發病風險增高(ORs>1,95%CI 不包含 1),而遠期(>15 年)風險則降低(ORs<1,95%CI 不包含 1)。Lambe 等[26]推測這種短期風險增高的原因可能是懷孕使女性體內雌激素增強了對已經開始惡性轉變的腫瘤細胞的促生長作用。Albrektsen 等[27]在 1 067 289 名 20~74 歲的挪威女性隊列研究中也發現類似結果,而本研究也發現生育次數增多會在一定程度導致乳腺癌的患病相對風險增加,其原因可能與上述研究類似。
Gail 模型是目前應用最廣、驗證最為成熟的乳腺癌風險預測模型[28],風險預測因子包括年齡、種族、初潮年齡、初產年齡、個人乳腺疾病史、乳腺癌家族史和乳腺活檢次數[29],5 年發病絕對風險概率值≥1.67% 判斷為高危個體[28]。限于人種和地域差異,Gail 模型在中國女性中的驗證效果不佳,且 Gail 模型中提及的乳腺活檢在中國人群中并不常見。為提高 Gail 模型的預測效能,Dai 等[30]基于 5 個 SNP(single nucleotide polymorphism)、初潮年齡和初產年齡構建了改良的 Gail 模型,但 AUC 仍維持較低水平(0.658)。吳菲等[31]基于上海女性乳腺癌發病特征,利用 Cox 比例回歸替代 logistic 回歸,但模型預測效能提升不大(AUC=0.596)。
本研究聯合決策樹、Logistic 回歸和 Gail 模型絕對風險計算原理,構建了適用于四川省女性特征的未來 5 年乳腺癌絕對風險預測模型,結果顯示模型預測效能較好(AUC=0.79),因此若能收集到可代表中國女性特征的樣本和較詳細的變量清單,結合本研究所采用的方法,后續可進一步調整模型參數,實現中國女性乳腺癌絕對風險預測模型的構建。決策樹模型有效彌補了傳統 Logistic 回歸不能有效處理因素間交互作用的不足[32],篩選出的危險因素代表性更好,且每一個個體只可能暴露于 1 種輸出路徑,有效減少了風險估計時需要考慮的變量個數。此外,Gail 模型的構建參數基于白種女性隨訪隊列獲得,但中國尚無較成熟的隨訪隊列,本研究模型參數通過查閱中國統計數據獲得,在一定程度上彌補了人種差異導致的缺陷。
本研究的局限如下:收集的特征因素有限,未包含收入、乳腺良性疾病史、流產史、避孕史等其他基本人口學特征和常見危險因素,導致篩選出的預測因素較少;基線發病率和競爭死亡風險數據來源于全國統計報告,套用在四川地區可能存在分布偏差;模型外部真實性評價尚缺乏隨訪隊列的驗證,模型預測效果還有待進一步證實。
綜上所述,本研究所采用的絕對風險估算方法,可初步預測四川省女性乳腺癌 5 年發病風險,預測變量包括城鄉來源、活產次數、年齡和初潮年齡,當受試者 5 年發病風險概率值≥0.100% 時,將判斷為高危人群。
據國家癌癥中心報告顯示,較《2016 中國腫瘤登記年報》[1],2018 年乳腺癌年齡標化發病率上升 0.35/10 萬,位居女性惡性腫瘤發病率榜首,且中國每年女性乳腺癌死亡數占世界女性乳腺癌死亡總數的 9.6%[2],乳腺癌已成為嚴重威脅我國女性健康的疾病之一。
發達國家將乳腺癌發病風險分級評價與乳腺癌鉬靶篩查策略相結合,輔以不斷提高的治療水平,2000~2014 年乳腺癌發病率保持穩定,死亡率呈下降趨勢,截至 2015 年,死亡率下降 39%[3]。我國乳腺癌雖然發病率不高,但由于人口基數大,新發病例數呈持續增長趨勢[4],故采取乳腺癌風險分級管理是最具衛生經濟學效益的策略,因此,有必要構建一套適用于中國人群的乳腺癌風險預測模型。目前,中國的乳腺癌風險評估模型尚處于探索階段,有研究者利用 logistic 回歸、神經網絡等技術建立了相對風險預測模型,但其解釋性、操作性不強[5,6];有研究者套用 Cuzick-Tyrer 等的國外風險預測模型,但由于人種和危險因素異質性,預測結果不佳[7,8]。Gail 模型是西方國家應用最廣、驗證最為成熟的模型[9-12]。但在我國的驗證結果顯示診斷的靈敏度波動范圍較大(11.33%~95.10%)[13,14],曲線下面積(area under the curve,AUC)偏低(0.536~0.682)[7,8,15],且會高估中國女性乳腺癌患病風險[E/O(預測值/觀察值)=2.09][16]。
因此,有必要基于中國女性危險因素特征,建立適用于中國女性的風險預測模型。由于中國國內基因檢測的費用較高,普適性不強,且乳腺癌常見的易感基因BRCA1和BRCA2在中國家族性乳腺癌患者中的突變率遠低于白種女性(3.9% vs. 20.0%)[17],因此本研究將根據四川省女性的乳腺癌危險因素特征,基于常見乳腺癌環境危險因素構建女性乳腺癌 5 年發病絕對風險預測模型,以期為提高乳腺癌篩查效率,從而實現早診早治,減少乳腺癌死亡率提供依據。
1 資料與方法
1.1 研究對象
病例組來源于 2000~2017 年就診于四川大學華西醫院,居住在四川地區,經組織病理學診斷為原發性乳腺癌的漢族女性,排除有精神疾病史和復發或轉移性乳腺癌患者,共 2 747 例。由于四川大學華西醫院良好的醫療資源和較高水準的醫療技術,該醫院的病例來源能較好地涵蓋四川省多個地區就診人群。對照組來源自 2009~2012 年四川省婦幼中心以及 2015~2017 年成都市雙流區婦幼保健院的乳腺癌篩查隊列人群。納入在四川地區居住≥3 年,經超聲或鉬靶檢查診斷為非乳腺癌的漢族女性,排除有精神疾病史以及其他惡性腫瘤的研究對象,共 6 307 例。由于四川省婦幼中心和成都市雙流婦幼保健院分別位于成都市區和周邊郊縣,上述對照來源能較好地涵蓋四川省城鄉健康人群。
1.2 變量信息和數據收集
本課題組統一編制了乳腺癌危險因素調查表,經統一培訓的調查員收集病例組和對照組信息,包括基本人口學特征、生殖生育因素等,采用 Epidata 3.2 軟件,采用盲法雙錄入建立數據庫,病例組人群部分變量信息則從醫院系統直接導出。
1.3 統計分析
1.3.1 基本特征和危險因素描述
對各變量分布特征進行描述與比較,定量資料若服從正態分布,則采用均值±標準差表示,用t檢驗進行假設檢驗;否則采用中位數(四分位數)表示,用秩和檢驗進行假設檢驗。定性資料則采用頻數(構成比)表示,用卡方檢驗進行假設檢驗。
1.3.2 構建決策樹篩選危險因素
由于各環境因素間可能存在交互作用和共線性,因此本研究采用決策樹篩選有代表性的危險因素。將研究對象按 2∶1 分為訓練集和驗證集,在訓練集中用決策樹篩選危險因素,并采用驗證集數據對決策樹模型效果進行評價,評價指標為:靈敏度、特異度、準確性、精確率、F1 評分、E/O 以及 AUC。
1.3.3 絕對風險預測模型構建與評估
Gail 絕對風險估算公式如下,其基本原理為個體暴露于各單因素的風險值累加[18]:
![]() |
表示年齡為a的女性在暴露于某種危險因素
的情況下,截止τ年時,其增加的乳腺癌絕對風險,本研究τ為 5 年,因此表示未來 5 年發病風險;
表示j年齡段內的女性乳腺癌基線風險,需要用
×(1?PAR%)估計,其中
表示各年齡段女性自然人群乳腺癌發病率,可基于統計數據獲得;PAR%(Population Attributable Risk,PAR)是危險因素
的人群歸因危險度,需要通過公式估算;
表示j年齡段內的女性非乳腺癌死亡競爭風險,可基于統計數據中女性全死因死亡率和女性乳腺癌死亡率的差值進行估計[1,19];
表示j年齡段內暴露于危險因素
的相對危險度 RR,在發病率<5% 的疾病研究中,可用 OR 值代替 RR 值。為便于計算,根據文獻提示,最后一項
可取 1[18]。因此,估算乳腺癌 5 年發病風險,除可通過統計數據直接獲得的參數值外,需額外計算 OR 和 PAR% 值。① OR 值計算:本研究將根據決策樹輸出路徑定義一個新變量 M,該新變量將以啞變量形式納入 logistic 回歸估計 OR 值。② PAR% 值計算:根據 Paolo Bruzzi 等[20,21]提供的算法,某危險因素 PAR% 可通過 logistic 回歸系數和Pj(case)獲得,計算公式如下:
![]() |
其中Dj表示第j層的病例數,D表示總的病例數,Dj/D即為Pj(case),表示第j層病例數占總病例數的比例,Rj表示第j層的相對危險度,β表示 logistic 回歸系數,zj表示第j層暴露狀態對應的指示變量,z0表示對照組對應的指示變量。
利用 OR、PAR% 值和中國腫瘤登記數據,根據 Gail 提出的絕對風險計算公式(公式 1),估計訓練集中所有個體 5 年患病絕對風險概率,繪制 ROC 曲線在訓練集中尋找最佳截斷值,并在驗證集中對上述絕對風險模型預測效果進行評價。
2 結果
2.1 納入患者的基本特征和危險因素分布描述
共納入 9 054 例女性,其中病例組 2 747 例,對照組 6 307 例,病例組中位年齡 58 歲,對照組中位年齡 54 歲。兩組人群除 BMI 外,其他危險因素的差異均具有統計學意義,結果見表 1。

2.2 構建決策樹模型篩選危險因素
決策樹模型的輸出結果如圖 1 所示,共輸出 4 個變量、6 條路徑。4 個變量為城鄉來源、活產次數、年齡和初潮年齡。利用驗證集對決策樹進行驗證,結果見表 2。驗證后的決策樹模型靈敏度 0.79,特異度 0.73,精確率 0.57,準確性 0.75,F1 評分 0.66,E/O=1.40,AUC 為 0.80。以上結果顯示,篩選出來的 4 個危險因素對乳腺癌的發病風險預測效果較好,可繼續用于后續絕對風險預測模型的構建。

source:城鄉來源;age:年齡;birthnum:活產次數;menarche:初潮年齡;條形圖表示患乳腺癌的相對概率,全灰和全黑分別表示相對概率為 0、1,黑白相間的相對概率為 0~1。

2.3 絕對風險預測模型構建與評估
2.3.1 相對危險度 OR 值估計
根據輸出路徑數目定義的新變量 M,取值 0~5,每一條輸出路徑則對應其中一個取值,該變量以啞變量的形式輸入作為自變量,OR 值見表 3。

2.3.2 估算人群歸因危險度
根據相關研究關于人群歸因危險度的計算方法[20,21],新變量 M 的人群歸因危險度值見表 4。

2.3.3 估算 5 年發病風險
參照 Gail 絕對風險概率算法(公式 1),基于訓練樣本計算所有個體乳腺癌 5 年發病風險概率。對照組 5 年發病風險概率值中位數 0.027%,四分位數間距 0.137%,病例組 5 年發病風險概率值中位數 0.219%,四分位數間距 0.256%,利用 ROC 曲線尋找到的最佳截斷值為 0.100%,結果見圖 2。

3 討論
本研究基于四川省女性特征初步探索建立乳腺癌 5 年發病絕對風險預測模型的構建方法,結果顯示,絕對風險預測模型靈敏度為 0.79,特異度為 0.73,精確率為 0.57,準確率為 0.75,F1 評分為 0.66,E/O=1.40,AUC 為 0.79,模型預測效果良好。預測因素包括城鄉來源、活產次數、年齡和初潮年齡,當女性人群的 5 年發病風險≥0.100% 時將判斷為乳腺癌發病高風險,可由此甄別低、高危人群并實施分級管理。
從決策樹輸出路徑可知,城鎮居民、年齡≥56 歲或初潮年齡≤14 歲或活產次數越多,乳腺癌患病相對風險越高。中國腫瘤登記年報顯示,城鎮地區的乳腺癌年齡標準發病率是農村地區的兩倍多(每 10 萬婦女 34.3 例vs.每 10 萬婦女 17.0 例),這可能是由于生活方式和經濟水平的差異導致[2]。年齡是腫瘤發生發展的重要危險因素,年齡越大,腫瘤發病風險越高[22]。中國腫瘤登記年報也顯示,中國女性乳腺癌發病風險隨年齡增長而增加,發病高峰年齡為 45~55 歲[1,2]。本研究發現,女性年齡大于 56 歲,其平均發病風險更高。乳腺癌是一種激素依賴性腫瘤,雌激素和孕激素分別為乳腺癌發病的刺激因素和保護因素,初潮年齡越早,個體暴露于雌激素的時間越長,雌激素對乳腺組織促生長作用時間越久,越容易發生乳腺癌[23]。Khalis 等[24]對 237 對摩洛哥病例對照人群進行乳腺癌生殖生育相關危險因素研究,結果顯示初潮年齡≤13 歲是乳腺癌的危險因素[OR=1.60,95%CI(1.08,2.38)]。Rajbongshi 等[25]對 100 對印度女性進行病例對照研究,發現初潮年齡>12 歲是乳腺癌的保護因素[OR=0.438,95%CI(0.233,0.820)]。本研究結果顯示初潮年齡越早,乳腺癌發病風險越高,且以 14 歲為截點,與上述研究結論一致。此外,生育歷來被認為是乳腺癌的保護因素,其原因是生育經歷會減少雌激素的作用時間[24],但也有研究顯示生育次數越多會增加乳腺癌的患病風險。Lambe 等[26]利用瑞典全國隊列中的城市女性,通過病例對照研究(病例vs.對照:12 666 例 vs. 62 121 例),發現相較于未生育的女性而言,生育會使女性短期(≤15 年)內的乳腺癌發病風險增高(ORs>1,95%CI 不包含 1),而遠期(>15 年)風險則降低(ORs<1,95%CI 不包含 1)。Lambe 等[26]推測這種短期風險增高的原因可能是懷孕使女性體內雌激素增強了對已經開始惡性轉變的腫瘤細胞的促生長作用。Albrektsen 等[27]在 1 067 289 名 20~74 歲的挪威女性隊列研究中也發現類似結果,而本研究也發現生育次數增多會在一定程度導致乳腺癌的患病相對風險增加,其原因可能與上述研究類似。
Gail 模型是目前應用最廣、驗證最為成熟的乳腺癌風險預測模型[28],風險預測因子包括年齡、種族、初潮年齡、初產年齡、個人乳腺疾病史、乳腺癌家族史和乳腺活檢次數[29],5 年發病絕對風險概率值≥1.67% 判斷為高危個體[28]。限于人種和地域差異,Gail 模型在中國女性中的驗證效果不佳,且 Gail 模型中提及的乳腺活檢在中國人群中并不常見。為提高 Gail 模型的預測效能,Dai 等[30]基于 5 個 SNP(single nucleotide polymorphism)、初潮年齡和初產年齡構建了改良的 Gail 模型,但 AUC 仍維持較低水平(0.658)。吳菲等[31]基于上海女性乳腺癌發病特征,利用 Cox 比例回歸替代 logistic 回歸,但模型預測效能提升不大(AUC=0.596)。
本研究聯合決策樹、Logistic 回歸和 Gail 模型絕對風險計算原理,構建了適用于四川省女性特征的未來 5 年乳腺癌絕對風險預測模型,結果顯示模型預測效能較好(AUC=0.79),因此若能收集到可代表中國女性特征的樣本和較詳細的變量清單,結合本研究所采用的方法,后續可進一步調整模型參數,實現中國女性乳腺癌絕對風險預測模型的構建。決策樹模型有效彌補了傳統 Logistic 回歸不能有效處理因素間交互作用的不足[32],篩選出的危險因素代表性更好,且每一個個體只可能暴露于 1 種輸出路徑,有效減少了風險估計時需要考慮的變量個數。此外,Gail 模型的構建參數基于白種女性隨訪隊列獲得,但中國尚無較成熟的隨訪隊列,本研究模型參數通過查閱中國統計數據獲得,在一定程度上彌補了人種差異導致的缺陷。
本研究的局限如下:收集的特征因素有限,未包含收入、乳腺良性疾病史、流產史、避孕史等其他基本人口學特征和常見危險因素,導致篩選出的預測因素較少;基線發病率和競爭死亡風險數據來源于全國統計報告,套用在四川地區可能存在分布偏差;模型外部真實性評價尚缺乏隨訪隊列的驗證,模型預測效果還有待進一步證實。
綜上所述,本研究所采用的絕對風險估算方法,可初步預測四川省女性乳腺癌 5 年發病風險,預測變量包括城鄉來源、活產次數、年齡和初潮年齡,當受試者 5 年發病風險概率值≥0.100% 時,將判斷為高危人群。