在醫療衛生領域,利用真實世界數據生成真實世界證據的研究已經在世界范圍內引起了廣泛關注,基于真實世界數據評價治療結局是其重要的組成部分。然而,目前針對如何在此類研究中設計并實施合理的統計分析,還存在一定的疑惑。為此,作為中國真實世界數據與研究聯盟(ChinaREAL)工作組制定的真實世界研究系列技術規范 4,本技術規范詳述了真實世界數據評價治療結局研究中進行統計分析時需要注意的事項。在本技術規范中,首先強調預先設計統計分析計劃的重要性,推薦基于研究型數據庫評價治療結局研究的統計分析計劃的主要內容。其次,闡述了在此類研究中關于研究樣本量計算的注意事項及如何合理解讀統計分析中的 P 值等問題。再次,針對此類研究中常見的人群選擇偏倚、信息偏倚以及混雜偏倚,推薦相應的統計分析策略,涵蓋了目前應用廣泛的多變量回歸模型以及新興的因果推斷模型,對基于既有數據庫的研究中普遍存在的缺失數據給出了相應的指導方針。最后,明確了此類研究統計報告中應包含的核心內容。
引用本文: 高培, 王楊, 羅劍鋒, 任燕, 胡明, 唐少文, 胡皓, 孫鑫, 代表中國真實世界數據與研究聯盟(ChinaREAL). 基于真實世界數據評價治療結局研究的統計分析技術規范. 中國循證醫學雜志, 2019, 19(7): 787-793. doi: 10.7507/1672-2531.201904179 復制
在利用真實世界數據進行治療結局評價的研究過程中,往往首先需要對既有健康醫療數據進行清洗,或針對特定研究目的、前瞻性地建立患者注冊登記研究,不管上述哪種類型的原始數據,均需建立以研究為目的的研究型數據庫,本系列技術規范中的技術規范 1 和技術規范 2 主要解決研究型數據庫的建立問題。在此基礎上,技術規范 3 介紹了如何凝練研究問題,梳理研究方案,并進行嚴謹的研究設計。作為中國真實世界數據與研究聯盟(ChinaREAL)工作組制定的真實世界研究系列技術規范 4,本文詳述了在基于研究型數據庫的治療結局評價研究中進行統計分析時需要注意的事項。其適用的分析數據集來自在技術規范 1 和 2 基礎上建立的研究型數據庫,以技術規范 3 中主要涵蓋的觀察性流行病學研究設計為基礎,但不適用于技術規范 5 中涉及的實效性隨機對照試驗。本技術規范的目標讀者不僅包括真實世界數據研究的統計分析人員,更希望給研究的設計者以及臨床醫生提供統計分析時的綱領性意見。
1 預先設計統計分析計劃(statistical analysis plan,SAP)
大多數基于研究型數據庫的研究,在研究開始時,數據已經被收集記錄完成。因此,研究過程中容易發生事后分析(post hoc analysis,即根據數據本身的特點和結果制定研究假設進行統計分析)的現象。但這樣的分析結果容易受到多重校驗的影響,使研究結果出現假陽性。故在研究開始前,預先設計研究要探索的研究假設及提前制定相應的 SAP 至關重要。特別需要強調:SAP 的制定應由研究的設計者、統計分析師以及臨床醫生共同完成。
1.1 SAP 的主要內容
目前,針對臨床試驗的 SAP 的內容,已有研究者提供相應的指南[1],我們針對其中的主要內容進行了修改,使之更適合基于研究型數據庫的治療結局評價相關的臨床研究。如表 1 所示,我們列出了基于研究型數據庫的 SAP 建議包含的主要內容。

1.2 研究樣本量
在傳統的臨床試驗設計中,統計人員需要提供嚴格的樣本量計算過程,用以評價研究的可行性、指導研究對象的招募和研究效果的評估。在基于研究型數據庫的治療結局評價研究中,對于常規收集的醫療研究數據庫,研究對象沒有采用前瞻性招募,而是根據特定的納入、排除標準從數據庫中選取:對于患者登記的數據庫,盡管數據庫在構建過程中可能是前瞻性的,但該數據庫一般可以用來回答多種類型的研究問題(詳見患者登記數據庫構建的技術規范),故基于患者登記數據庫的臨床研究大多也是在一個已有的患者登記數據庫框架下根據特定的研究問題進行研究設計和統計分析,也往往根據特定的納入、排除標準從已有的數據庫中選取研究對象。因此,在統計分析的過程中,有多少樣本例數可以納入研究取決于數據庫中滿足納入排除標準的研究對象數量,常規臨床試驗中的樣本量計算可能不能提供研究者關心的相關信息。
在基于研究型數據庫的治療結局評價研究中,研究者關注的相關問題是:“如果有了一定數量的樣本量,有多大把握能夠發現治療方案的陽性結果?”即研究的檢驗效能(power)計算。因此,盡管在這樣的研究中,研究者不需要過多考慮患者的樣本量例數,但依然需要進行給定樣本量的效能計算。在傳統的樣本量分析中,統計師給定統計學檢驗水平(如 0.05)和檢驗效能(如 80%),再計算所需要的樣本量(N);但在基于研究型數據庫的研究中,我們建議給定統計學檢驗水平(如 0.05)和樣本量(N),根據研究可能產生的幾組效應值(effect size)來計算該數據所能提供的效能。需要提醒的是,預定效應值的設定應考慮研究中最小的具有臨床意義的差異(minimal clinically important difference,MCID)。
1.3 P 值
通常情況下,在統計分析時,統計人員通過設定相應的統計學假設檢驗,如 P 值是否大于或小于 0.05 來判斷研究假設是否具有統計學意義。現在越來越多的研究者,包括統計學家,反對單純通過 P 值是否<0.05 判斷研究假設的真偽。這里,我們強調統計學結果并非科學研究結果評判的唯一標準。我們認為 P 值僅是一種統計手段判斷該結果的出現是否具有偶然性;在此之前,還應考慮研究本身是否具有科學意義,研究設計是否嚴謹,是否采取了合理的手段和途徑控制可能的偏倚,及研究結果是否有潛在的醫學意義等問題。應避免對 P 值的過度解讀,例如,將“無統計學意義”錯誤理解為“沒有差異”。目前也有研究者質疑閾值設定為 0.05 的選擇[2]。我們建議在基于研究型數據庫的研究中,應給出研究中假設檢驗的絕對 P 值及置信區間,而不是簡單的 P<0.05。
1.4 鏈接型數據庫的治療結局研究的注意事項
現在越來越多的研究所基于的數據庫并非一個,而是通過索引相互連接的鏈接型數據庫,在分析這樣的數據之前,我們建議明確數據庫的多個來源,并評估不同來源數據庫的數據質量,以便進行研究數據或結果的合并。不同來源的數據庫可能會出現矛盾的數據信息,在統計分析的設計過程中,需要考慮如何處理相關的矛盾數據。若不同來源數據庫的質量不一致,建議預先設定數據選取的優先級,或采用加權算法計算數據的期望值(與缺失值處理方式類似),SAP 中應預先對矛盾數據處理方案進行說明和描述。統計分析過程中,建議提供相應的數據鏈接匹配成功的比例,描述不同來源數據重要信息的統計量,如基線信息或隨訪時間等。
2 研究的統計分析
在基于研究型數據庫的治療結局評價研究中,大多為基于常規收集的醫療數據或患者登記注冊的觀察性研究,相比隨機化臨床試驗,這類研究更容易產生偏倚,常見的偏倚類型包括選擇偏倚、信息偏倚和混雜偏倚。如何利用統計手段盡可能減小偏倚的影響,是這類研究統計分析的核心。
2.1 研究人群選擇偏倚的評估
選擇偏倚是指選入分析的研究對象與未選入者在某些特征上存在差異而引起的系統誤差。常見的選擇偏倚包括:入院率偏倚(如研究對象選擇某個醫院的某類疾病的患者,而非全體目標人群的一個隨機樣本)、現患病例-新發病例偏倚(存活者由于疾病可能改變原有的一些暴露特征)和檢出癥候偏倚(某因素不是病因但有該因素的患者容易出現某種癥狀從而去就醫,因此提高了該疾病的早期檢出率)[3]。如何避免研究人群的選擇偏倚是研究設計中的重要問題。在統計分析中常常需要提供如下圖表,來幫助評估研究人群是否存在一定的選擇偏倚,以保證研究結果的外推性:① 通過提供相應研究對象的篩選流程圖,說明研究過程中如何從原有數據庫中根據納入排除標準逐步篩選出合格的分析對象,給出原始數據庫的樣本量、每一個步驟排除的研究對象數目、相應的排除原因以及最后納入分析的研究對象樣本量;② 描述研究人群的基線特征,按暴露因素或干預方案分組詳細描述患者的基線特征;③ 納入患者和排除患者的基線特征對比。
2.2 研究中主要因素的信息偏倚
信息偏倚是指在收集整理信息過程中由于測量暴露或結局的方法有缺陷造成的系統誤差[3],例如測量儀器不夠精確或不同醫生診斷水平不同等原因造成的暴露或結局信息有偏差。針對這類偏倚,在很多數據庫的研究中,可以提取相同因素的重復測量信息,用以評估重要因素的測量誤差或個體變異程度,如回歸稀釋比例(regression dilution ratio,RDR),也可以利用 RDR 進行校正,從而減小測量誤差(或個體變異程度)對研究結果的影響[4]。注意:數據庫中提取的暴露因素可能來源于不同的數據源,觀察對象重復測量的因素可能在不同的時間點進行測量,故研究中需要盡可能地收集重要因素,特別是暴露因素的測量方法、采用的儀器設備或試劑等,以評估儀器或檢測手段對重要因素的信息偏倚影響。
此外,在基于真實世界數據的研究中,特別是基于常規收集的醫療健康數據,異常值的現象較為普遍。首先我們推薦針對重要的變量(如暴露因素等)進行檢查,確定是否存在異常值,如對于連續變量可以采用如散點圖或以±3 倍標準差為范圍(適用于正態分布的變量)進行異常值檢測。對于檢出的異常值,推薦與臨床醫生共同判斷該數值真實存在的可能性。我們不推薦隨意刪除或修改異常值,這將改變該變量的分布,但建議在 SAP 中預先設計進行有關異常值的敏感性分析,特別當研究中擬采用對于異常值敏感的統計分析方法時,預先設計相應的分析方案及敏感性分析尤為重要。需要注意的是,相關的統計設計方案均需要在 SAP 中預先制定。
2.3 針對混雜因素的統計分析方法
與隨機化臨床試驗的統計分析不同,大多數真實世界數據的治療結局研究中沒有實施隨機化(實效性臨床試驗除外),通常需要制定詳細的分析策略來減小或控制混雜因素造成的偏倚。我們建議描述研究中的重要因素,如描述暴露組與非暴露組之間已知因素的對比,可以識別研究數據中與暴露因素和(或)結局因素關聯的變量,發現組間不均衡的協變量,作為潛在的混雜因素調整集的重要組成部分。
在 SAP 中預先制定和選取合適的統計分析模型。這不僅包括傳統的分析方法,如多變量回歸模型法,也有越來越多的針對因果推斷的模型在不斷的應用和完善中。在本技術規范中,我們旨在提供基于研究型數據庫的治療評價研究中統計分析的基本原則和指導思想,故并未提供研究模型詳細的處理分析方法,建議讀者通過參考文獻或其他途徑探索每個方法的研究假設和具體實施細則。
2.3.1 多變量分析方法
多變量分析方法(如多變量回歸模型)是在治療結局評價中最常見的控制混雜因素的統計分析方法。我們在多變量分析模型的選擇上需要根據研究目的、研究設計類型、暴露因素(或治療方案)的特點、結局變量及混雜因素選擇合適的統計模型。統計模型選擇見表 2。選擇方法與觀察性療效比較研究的方法一致[5]。

值得注意的是,盡管現在很多統計軟件都有執行多變量分析模型的函數,但在應用這些模型時,仍需要考慮以下注意事項:① 確保模型的基本假設在研究數據中是成立的,如 Cox 比例風險回歸模型的等比例風險假設;② 確保變量結構與分布(如正態性)滿足模型的要求;③ 納入的研究對象(及病例)的數量足夠滿足模型中需要估計的參數所需的例數,如一般研究對象的數量至少為 20~30 倍于協變量的個數,發生結局事件的患者數量建議至少為 10 倍的協變量數;④ 考慮模型中的重要因素與結局事件是否存在非線性關系。
針對多變量回歸模型中的變量選擇問題,我們將在本技術規范的 2.4 部分詳細介紹。
2.3.2 因果推斷模型
除傳統的多變量回歸模型之外,基于因果推斷的模型被越來越多地應用于基于數據庫的治療評價研究的統計分析中,如傾向評分、工具變量、邊際結構模型、結構方程模型等[6]。其中,傾向評分分析方法在這類研究中最常見,該方法采用了對多個協變量進行調整的降維分析策略,特別適用于暴露常見而結局罕見的研究,或有多個結局變量的研究[7]。常見的傾向評分應用方法包括匹配、分層、校正和加權法。特別值得注意的是,研究者若在治療結局評價中考慮使用傾向評分方法,建議參考醫療器械上市前試驗的“兩階段”設計予以考慮[8]:首先,在研究方案或統計分析計劃中,應預先指明用于建立傾向評分模型的變量及對模型擬合優度和預測效果進行判斷的標準;更重要的是:在對基線指標建立傾向評分模型時,應保持對結局指標的“盲態”,直到傾向評分模型建立完畢并確定后,才將結局指標引入,直接評價結果。避免根據療效結局的對比結果重新調整傾向評分模型,從而獲得“理想”或“預期”結果的情況。
在應用傾向評分進行分析時,需同時報告傾向評分校正前和校正后的結果,并需要考慮傾向評分處理后可能對最終結果造成的影響[9]。例如,用傾向評分匹配后可能導致估計精度降低(因樣本量下降);或用傾向評分加權時個別極大權重的研究對象可能對分析結果造成較大影響等。特別強調的是:傾向評分方法僅能處理可觀測到的混雜,不能消除數據庫中未采集的殘余混雜帶來的潛在影響,建議研究中針對評價結果進行合理的解讀和討論,甚至開展可能的定量分析。
2.4 變量選擇
如前所述,基于數據庫的治療結局評價研究中,大多為基于觀察性研究的統計分析,這類研究容易受到混雜因素的影響。故其統計分析過程中,如何根據實際情況選擇模型中應考慮的混雜因素集是控制混雜因素影響的關鍵步驟。一般情況下,我們有幾種變量選擇策略:① 基于已知的治療方式(或暴露因素)與結局的相關背景知識選擇混雜因素集予以調整;② 基于 2.3 部份中分組變量的組間基線差異識別可能對暴露和/或結局有影響的混雜因素集;③ 依靠統計學自動高維迭代或機器學習的算法進行變量選擇(② 和③ 均為數據驅動的混雜因素集);④ 將前幾種方法結合起來使用。我們建議研究者在進行統計分析的設計和執行時,明確變量選擇的方案,描述關鍵的協變量的相關信息,明確基于背景知識或經驗的影響因素集,描述變量選擇的算法及其依據,并分析變量選擇方案可能對結果產生的潛在影響。
2.5 缺失數據
在基于研究型數據庫的研究中,缺失數據的現象普遍存在。在缺失數據問題的處理上,與臨床試驗中的處理方法一致[10]。通常,合理選擇缺失數據的處理方法需要基于對變量缺失機制(即完全隨機缺失、隨機缺失或非隨機缺失)的判斷。常見的缺失數據的分析方法包括基于完整數據集的分析(complete case analysis)、插值填補法(單一填補或多重填補)或使用不要求完整數據集的分析方法(如 likelihood-based methods)[11]。隨著臨床試驗中對于缺失數據處理的方法學和指南逐步完善,這些統計分析方法已經被廣泛用于臨床研究中。
針對基于研究型數據庫的研究,我們強調:在基于數據庫研究的統計分析計劃中,應預先指明對缺失數據的處理方法,分別包括對結局指標和基線協變量的考慮。我們建議設計針對缺失數據的敏感性分析,提供完整數據集及應用不同缺失數據處理方法后所得的結果,以評估治療效果的可靠性。注意:在基于研究型數據庫開展的研究中,通常會采用前面提到的校正分析方法,如多變量回歸分析法。常規的統計軟件在執行多變量回歸模型分析時,只有所有基線和結局指標均不缺失的樣本才會被納入回歸分析中。故即便單項指標缺失比例不高,仍會出現校正分析時實際納入的研究對象的數量大幅減低的情況,從而影響分析的效能以及結果的代表性,因此建議在分析開始前就考慮對缺失數據的影響進行合理的預處理。
2.6 敏感性分析設計
在基于數據庫的治療結局評價研究中,敏感性分析是評估研究結果穩健性的重要手段。對于研究中的因素定義(暴露或結局)、分析人群或模型假設(如線性關系的數學函數等)等因素對結果的影響,均可以通過設計相應的敏感性分析進行評估。常見的敏感性分析包括:① 暴露因素的不同定義方式(連續或分類);② 不確定的混雜因素的影響;③ 分析數據集選擇的人群是否存在選擇偏倚;④ 研究結局的定義;⑤ 采用多種不同的研究設計(詳見技術規范 3);⑥ 使用不同的統計學分析方法;⑦ 不同的缺失數據處理方法;⑧ 不同來源數據庫的數據質量對結果的影響(矛盾數據的處理方法等);⑨ 模型中采用不同的數學函數形式(如非線性模型);⑩ 違背模型假設時可能產生的影響(如采用時依模型的結果)。
3 研究統計分析的報告
統計師根據確認的 SAP 完成統計分析工作,按照 SAP 中擬分析的結果制作統計表和統計圖,撰寫統計分析報告。統計分析報告是提供給主要研究者作為撰寫臨床研究總結報告的素材。統計分析報告需要詳細闡述數據收集、處理和統計分析過程,及根據 SAP 分析的研究結果。撰寫者需要提供足夠的信息,闡明使用的方法及其原因,達到其他統計人員可以重復的標準。統計分析結論應采用精確的統計學術語闡述。所有統計計算程序應以文件形式保存以便核查。統計分析報告應遵循最終的針對不同類型的醫學研究報告規范的統計學方法及分析結果部分的要求。在基于研究型數據庫的觀察性研究中,應用較多的醫學研究報告規范包括 STROBE(strengthening the reporting of observational studies in epidemiology)[12]及其針對常規收集數據庫的擴展規范 RECORD(reporting of studies conducted using observational routinely-collected data)[13]等。與 SAP 相對應,統計分析報告的內容一般應該包括以下幾部分:① 資料的收集、數據預處理和清洗過程:需要詳細闡述數據來源,抽樣方式并討論可能存在的選擇偏倚,納入最后分析的研究對象篩選的流程圖。② 準確而完整地描述最終使用的統計方法和模型:這包括選用的統計分析軟件(注明統計軟件全名及版本)、統計描述的內容、對檢驗水準的規定,及進行假設檢驗和建立置信區間的統計學方法的選擇及其理由。對于常規使用不引起歧義的統計方法,可以直接給出名稱,如 Pearson 卡方。對于存在歧義的需要明確。如 t 檢驗,要明確針對獨立樣本的 t 檢驗還是配對 t 檢驗。若使用比較復雜,不常見的統計方法,需要給出參考文獻。對未使用常規方法的,需要闡述理由,并給出參考文獻,如果可能,最好同時給出常規方法的結果。對于統計建模中的變量選擇問題,需要闡明選擇的過程,不建議僅給出最后結果,以避免假陽性。如果與原有的 SAP 有所違背,需要說明修改原因。③ 統計結果部分:詳細描述分析數據集的劃分及其原因;多中心研究時,內容應包括各中心研究對象的入選情況;詳細描述研究對象的基線特征,各組病例入選時的基線特征及統計檢驗結果,納入患者和排除患者的基線特征對比;藥物或其他干預措施的暴露情況及依從性;各組病例的各類結局事件(主要結局、次要結局等)的統計描述和假設檢驗結果;主要分析結果,即主要治療效果如何;次要結局事件的分析結果、亞組分析的結果;描述缺失數據的情況;描述來自不同來源的原始數據重要信息的統計量;提供敏感性分析的結果。
在利用真實世界數據進行治療結局評價的研究過程中,往往首先需要對既有健康醫療數據進行清洗,或針對特定研究目的、前瞻性地建立患者注冊登記研究,不管上述哪種類型的原始數據,均需建立以研究為目的的研究型數據庫,本系列技術規范中的技術規范 1 和技術規范 2 主要解決研究型數據庫的建立問題。在此基礎上,技術規范 3 介紹了如何凝練研究問題,梳理研究方案,并進行嚴謹的研究設計。作為中國真實世界數據與研究聯盟(ChinaREAL)工作組制定的真實世界研究系列技術規范 4,本文詳述了在基于研究型數據庫的治療結局評價研究中進行統計分析時需要注意的事項。其適用的分析數據集來自在技術規范 1 和 2 基礎上建立的研究型數據庫,以技術規范 3 中主要涵蓋的觀察性流行病學研究設計為基礎,但不適用于技術規范 5 中涉及的實效性隨機對照試驗。本技術規范的目標讀者不僅包括真實世界數據研究的統計分析人員,更希望給研究的設計者以及臨床醫生提供統計分析時的綱領性意見。
1 預先設計統計分析計劃(statistical analysis plan,SAP)
大多數基于研究型數據庫的研究,在研究開始時,數據已經被收集記錄完成。因此,研究過程中容易發生事后分析(post hoc analysis,即根據數據本身的特點和結果制定研究假設進行統計分析)的現象。但這樣的分析結果容易受到多重校驗的影響,使研究結果出現假陽性。故在研究開始前,預先設計研究要探索的研究假設及提前制定相應的 SAP 至關重要。特別需要強調:SAP 的制定應由研究的設計者、統計分析師以及臨床醫生共同完成。
1.1 SAP 的主要內容
目前,針對臨床試驗的 SAP 的內容,已有研究者提供相應的指南[1],我們針對其中的主要內容進行了修改,使之更適合基于研究型數據庫的治療結局評價相關的臨床研究。如表 1 所示,我們列出了基于研究型數據庫的 SAP 建議包含的主要內容。

1.2 研究樣本量
在傳統的臨床試驗設計中,統計人員需要提供嚴格的樣本量計算過程,用以評價研究的可行性、指導研究對象的招募和研究效果的評估。在基于研究型數據庫的治療結局評價研究中,對于常規收集的醫療研究數據庫,研究對象沒有采用前瞻性招募,而是根據特定的納入、排除標準從數據庫中選取:對于患者登記的數據庫,盡管數據庫在構建過程中可能是前瞻性的,但該數據庫一般可以用來回答多種類型的研究問題(詳見患者登記數據庫構建的技術規范),故基于患者登記數據庫的臨床研究大多也是在一個已有的患者登記數據庫框架下根據特定的研究問題進行研究設計和統計分析,也往往根據特定的納入、排除標準從已有的數據庫中選取研究對象。因此,在統計分析的過程中,有多少樣本例數可以納入研究取決于數據庫中滿足納入排除標準的研究對象數量,常規臨床試驗中的樣本量計算可能不能提供研究者關心的相關信息。
在基于研究型數據庫的治療結局評價研究中,研究者關注的相關問題是:“如果有了一定數量的樣本量,有多大把握能夠發現治療方案的陽性結果?”即研究的檢驗效能(power)計算。因此,盡管在這樣的研究中,研究者不需要過多考慮患者的樣本量例數,但依然需要進行給定樣本量的效能計算。在傳統的樣本量分析中,統計師給定統計學檢驗水平(如 0.05)和檢驗效能(如 80%),再計算所需要的樣本量(N);但在基于研究型數據庫的研究中,我們建議給定統計學檢驗水平(如 0.05)和樣本量(N),根據研究可能產生的幾組效應值(effect size)來計算該數據所能提供的效能。需要提醒的是,預定效應值的設定應考慮研究中最小的具有臨床意義的差異(minimal clinically important difference,MCID)。
1.3 P 值
通常情況下,在統計分析時,統計人員通過設定相應的統計學假設檢驗,如 P 值是否大于或小于 0.05 來判斷研究假設是否具有統計學意義。現在越來越多的研究者,包括統計學家,反對單純通過 P 值是否<0.05 判斷研究假設的真偽。這里,我們強調統計學結果并非科學研究結果評判的唯一標準。我們認為 P 值僅是一種統計手段判斷該結果的出現是否具有偶然性;在此之前,還應考慮研究本身是否具有科學意義,研究設計是否嚴謹,是否采取了合理的手段和途徑控制可能的偏倚,及研究結果是否有潛在的醫學意義等問題。應避免對 P 值的過度解讀,例如,將“無統計學意義”錯誤理解為“沒有差異”。目前也有研究者質疑閾值設定為 0.05 的選擇[2]。我們建議在基于研究型數據庫的研究中,應給出研究中假設檢驗的絕對 P 值及置信區間,而不是簡單的 P<0.05。
1.4 鏈接型數據庫的治療結局研究的注意事項
現在越來越多的研究所基于的數據庫并非一個,而是通過索引相互連接的鏈接型數據庫,在分析這樣的數據之前,我們建議明確數據庫的多個來源,并評估不同來源數據庫的數據質量,以便進行研究數據或結果的合并。不同來源的數據庫可能會出現矛盾的數據信息,在統計分析的設計過程中,需要考慮如何處理相關的矛盾數據。若不同來源數據庫的質量不一致,建議預先設定數據選取的優先級,或采用加權算法計算數據的期望值(與缺失值處理方式類似),SAP 中應預先對矛盾數據處理方案進行說明和描述。統計分析過程中,建議提供相應的數據鏈接匹配成功的比例,描述不同來源數據重要信息的統計量,如基線信息或隨訪時間等。
2 研究的統計分析
在基于研究型數據庫的治療結局評價研究中,大多為基于常規收集的醫療數據或患者登記注冊的觀察性研究,相比隨機化臨床試驗,這類研究更容易產生偏倚,常見的偏倚類型包括選擇偏倚、信息偏倚和混雜偏倚。如何利用統計手段盡可能減小偏倚的影響,是這類研究統計分析的核心。
2.1 研究人群選擇偏倚的評估
選擇偏倚是指選入分析的研究對象與未選入者在某些特征上存在差異而引起的系統誤差。常見的選擇偏倚包括:入院率偏倚(如研究對象選擇某個醫院的某類疾病的患者,而非全體目標人群的一個隨機樣本)、現患病例-新發病例偏倚(存活者由于疾病可能改變原有的一些暴露特征)和檢出癥候偏倚(某因素不是病因但有該因素的患者容易出現某種癥狀從而去就醫,因此提高了該疾病的早期檢出率)[3]。如何避免研究人群的選擇偏倚是研究設計中的重要問題。在統計分析中常常需要提供如下圖表,來幫助評估研究人群是否存在一定的選擇偏倚,以保證研究結果的外推性:① 通過提供相應研究對象的篩選流程圖,說明研究過程中如何從原有數據庫中根據納入排除標準逐步篩選出合格的分析對象,給出原始數據庫的樣本量、每一個步驟排除的研究對象數目、相應的排除原因以及最后納入分析的研究對象樣本量;② 描述研究人群的基線特征,按暴露因素或干預方案分組詳細描述患者的基線特征;③ 納入患者和排除患者的基線特征對比。
2.2 研究中主要因素的信息偏倚
信息偏倚是指在收集整理信息過程中由于測量暴露或結局的方法有缺陷造成的系統誤差[3],例如測量儀器不夠精確或不同醫生診斷水平不同等原因造成的暴露或結局信息有偏差。針對這類偏倚,在很多數據庫的研究中,可以提取相同因素的重復測量信息,用以評估重要因素的測量誤差或個體變異程度,如回歸稀釋比例(regression dilution ratio,RDR),也可以利用 RDR 進行校正,從而減小測量誤差(或個體變異程度)對研究結果的影響[4]。注意:數據庫中提取的暴露因素可能來源于不同的數據源,觀察對象重復測量的因素可能在不同的時間點進行測量,故研究中需要盡可能地收集重要因素,特別是暴露因素的測量方法、采用的儀器設備或試劑等,以評估儀器或檢測手段對重要因素的信息偏倚影響。
此外,在基于真實世界數據的研究中,特別是基于常規收集的醫療健康數據,異常值的現象較為普遍。首先我們推薦針對重要的變量(如暴露因素等)進行檢查,確定是否存在異常值,如對于連續變量可以采用如散點圖或以±3 倍標準差為范圍(適用于正態分布的變量)進行異常值檢測。對于檢出的異常值,推薦與臨床醫生共同判斷該數值真實存在的可能性。我們不推薦隨意刪除或修改異常值,這將改變該變量的分布,但建議在 SAP 中預先設計進行有關異常值的敏感性分析,特別當研究中擬采用對于異常值敏感的統計分析方法時,預先設計相應的分析方案及敏感性分析尤為重要。需要注意的是,相關的統計設計方案均需要在 SAP 中預先制定。
2.3 針對混雜因素的統計分析方法
與隨機化臨床試驗的統計分析不同,大多數真實世界數據的治療結局研究中沒有實施隨機化(實效性臨床試驗除外),通常需要制定詳細的分析策略來減小或控制混雜因素造成的偏倚。我們建議描述研究中的重要因素,如描述暴露組與非暴露組之間已知因素的對比,可以識別研究數據中與暴露因素和(或)結局因素關聯的變量,發現組間不均衡的協變量,作為潛在的混雜因素調整集的重要組成部分。
在 SAP 中預先制定和選取合適的統計分析模型。這不僅包括傳統的分析方法,如多變量回歸模型法,也有越來越多的針對因果推斷的模型在不斷的應用和完善中。在本技術規范中,我們旨在提供基于研究型數據庫的治療評價研究中統計分析的基本原則和指導思想,故并未提供研究模型詳細的處理分析方法,建議讀者通過參考文獻或其他途徑探索每個方法的研究假設和具體實施細則。
2.3.1 多變量分析方法
多變量分析方法(如多變量回歸模型)是在治療結局評價中最常見的控制混雜因素的統計分析方法。我們在多變量分析模型的選擇上需要根據研究目的、研究設計類型、暴露因素(或治療方案)的特點、結局變量及混雜因素選擇合適的統計模型。統計模型選擇見表 2。選擇方法與觀察性療效比較研究的方法一致[5]。

值得注意的是,盡管現在很多統計軟件都有執行多變量分析模型的函數,但在應用這些模型時,仍需要考慮以下注意事項:① 確保模型的基本假設在研究數據中是成立的,如 Cox 比例風險回歸模型的等比例風險假設;② 確保變量結構與分布(如正態性)滿足模型的要求;③ 納入的研究對象(及病例)的數量足夠滿足模型中需要估計的參數所需的例數,如一般研究對象的數量至少為 20~30 倍于協變量的個數,發生結局事件的患者數量建議至少為 10 倍的協變量數;④ 考慮模型中的重要因素與結局事件是否存在非線性關系。
針對多變量回歸模型中的變量選擇問題,我們將在本技術規范的 2.4 部分詳細介紹。
2.3.2 因果推斷模型
除傳統的多變量回歸模型之外,基于因果推斷的模型被越來越多地應用于基于數據庫的治療評價研究的統計分析中,如傾向評分、工具變量、邊際結構模型、結構方程模型等[6]。其中,傾向評分分析方法在這類研究中最常見,該方法采用了對多個協變量進行調整的降維分析策略,特別適用于暴露常見而結局罕見的研究,或有多個結局變量的研究[7]。常見的傾向評分應用方法包括匹配、分層、校正和加權法。特別值得注意的是,研究者若在治療結局評價中考慮使用傾向評分方法,建議參考醫療器械上市前試驗的“兩階段”設計予以考慮[8]:首先,在研究方案或統計分析計劃中,應預先指明用于建立傾向評分模型的變量及對模型擬合優度和預測效果進行判斷的標準;更重要的是:在對基線指標建立傾向評分模型時,應保持對結局指標的“盲態”,直到傾向評分模型建立完畢并確定后,才將結局指標引入,直接評價結果。避免根據療效結局的對比結果重新調整傾向評分模型,從而獲得“理想”或“預期”結果的情況。
在應用傾向評分進行分析時,需同時報告傾向評分校正前和校正后的結果,并需要考慮傾向評分處理后可能對最終結果造成的影響[9]。例如,用傾向評分匹配后可能導致估計精度降低(因樣本量下降);或用傾向評分加權時個別極大權重的研究對象可能對分析結果造成較大影響等。特別強調的是:傾向評分方法僅能處理可觀測到的混雜,不能消除數據庫中未采集的殘余混雜帶來的潛在影響,建議研究中針對評價結果進行合理的解讀和討論,甚至開展可能的定量分析。
2.4 變量選擇
如前所述,基于數據庫的治療結局評價研究中,大多為基于觀察性研究的統計分析,這類研究容易受到混雜因素的影響。故其統計分析過程中,如何根據實際情況選擇模型中應考慮的混雜因素集是控制混雜因素影響的關鍵步驟。一般情況下,我們有幾種變量選擇策略:① 基于已知的治療方式(或暴露因素)與結局的相關背景知識選擇混雜因素集予以調整;② 基于 2.3 部份中分組變量的組間基線差異識別可能對暴露和/或結局有影響的混雜因素集;③ 依靠統計學自動高維迭代或機器學習的算法進行變量選擇(② 和③ 均為數據驅動的混雜因素集);④ 將前幾種方法結合起來使用。我們建議研究者在進行統計分析的設計和執行時,明確變量選擇的方案,描述關鍵的協變量的相關信息,明確基于背景知識或經驗的影響因素集,描述變量選擇的算法及其依據,并分析變量選擇方案可能對結果產生的潛在影響。
2.5 缺失數據
在基于研究型數據庫的研究中,缺失數據的現象普遍存在。在缺失數據問題的處理上,與臨床試驗中的處理方法一致[10]。通常,合理選擇缺失數據的處理方法需要基于對變量缺失機制(即完全隨機缺失、隨機缺失或非隨機缺失)的判斷。常見的缺失數據的分析方法包括基于完整數據集的分析(complete case analysis)、插值填補法(單一填補或多重填補)或使用不要求完整數據集的分析方法(如 likelihood-based methods)[11]。隨著臨床試驗中對于缺失數據處理的方法學和指南逐步完善,這些統計分析方法已經被廣泛用于臨床研究中。
針對基于研究型數據庫的研究,我們強調:在基于數據庫研究的統計分析計劃中,應預先指明對缺失數據的處理方法,分別包括對結局指標和基線協變量的考慮。我們建議設計針對缺失數據的敏感性分析,提供完整數據集及應用不同缺失數據處理方法后所得的結果,以評估治療效果的可靠性。注意:在基于研究型數據庫開展的研究中,通常會采用前面提到的校正分析方法,如多變量回歸分析法。常規的統計軟件在執行多變量回歸模型分析時,只有所有基線和結局指標均不缺失的樣本才會被納入回歸分析中。故即便單項指標缺失比例不高,仍會出現校正分析時實際納入的研究對象的數量大幅減低的情況,從而影響分析的效能以及結果的代表性,因此建議在分析開始前就考慮對缺失數據的影響進行合理的預處理。
2.6 敏感性分析設計
在基于數據庫的治療結局評價研究中,敏感性分析是評估研究結果穩健性的重要手段。對于研究中的因素定義(暴露或結局)、分析人群或模型假設(如線性關系的數學函數等)等因素對結果的影響,均可以通過設計相應的敏感性分析進行評估。常見的敏感性分析包括:① 暴露因素的不同定義方式(連續或分類);② 不確定的混雜因素的影響;③ 分析數據集選擇的人群是否存在選擇偏倚;④ 研究結局的定義;⑤ 采用多種不同的研究設計(詳見技術規范 3);⑥ 使用不同的統計學分析方法;⑦ 不同的缺失數據處理方法;⑧ 不同來源數據庫的數據質量對結果的影響(矛盾數據的處理方法等);⑨ 模型中采用不同的數學函數形式(如非線性模型);⑩ 違背模型假設時可能產生的影響(如采用時依模型的結果)。
3 研究統計分析的報告
統計師根據確認的 SAP 完成統計分析工作,按照 SAP 中擬分析的結果制作統計表和統計圖,撰寫統計分析報告。統計分析報告是提供給主要研究者作為撰寫臨床研究總結報告的素材。統計分析報告需要詳細闡述數據收集、處理和統計分析過程,及根據 SAP 分析的研究結果。撰寫者需要提供足夠的信息,闡明使用的方法及其原因,達到其他統計人員可以重復的標準。統計分析結論應采用精確的統計學術語闡述。所有統計計算程序應以文件形式保存以便核查。統計分析報告應遵循最終的針對不同類型的醫學研究報告規范的統計學方法及分析結果部分的要求。在基于研究型數據庫的觀察性研究中,應用較多的醫學研究報告規范包括 STROBE(strengthening the reporting of observational studies in epidemiology)[12]及其針對常規收集數據庫的擴展規范 RECORD(reporting of studies conducted using observational routinely-collected data)[13]等。與 SAP 相對應,統計分析報告的內容一般應該包括以下幾部分:① 資料的收集、數據預處理和清洗過程:需要詳細闡述數據來源,抽樣方式并討論可能存在的選擇偏倚,納入最后分析的研究對象篩選的流程圖。② 準確而完整地描述最終使用的統計方法和模型:這包括選用的統計分析軟件(注明統計軟件全名及版本)、統計描述的內容、對檢驗水準的規定,及進行假設檢驗和建立置信區間的統計學方法的選擇及其理由。對于常規使用不引起歧義的統計方法,可以直接給出名稱,如 Pearson 卡方。對于存在歧義的需要明確。如 t 檢驗,要明確針對獨立樣本的 t 檢驗還是配對 t 檢驗。若使用比較復雜,不常見的統計方法,需要給出參考文獻。對未使用常規方法的,需要闡述理由,并給出參考文獻,如果可能,最好同時給出常規方法的結果。對于統計建模中的變量選擇問題,需要闡明選擇的過程,不建議僅給出最后結果,以避免假陽性。如果與原有的 SAP 有所違背,需要說明修改原因。③ 統計結果部分:詳細描述分析數據集的劃分及其原因;多中心研究時,內容應包括各中心研究對象的入選情況;詳細描述研究對象的基線特征,各組病例入選時的基線特征及統計檢驗結果,納入患者和排除患者的基線特征對比;藥物或其他干預措施的暴露情況及依從性;各組病例的各類結局事件(主要結局、次要結局等)的統計描述和假設檢驗結果;主要分析結果,即主要治療效果如何;次要結局事件的分析結果、亞組分析的結果;描述缺失數據的情況;描述來自不同來源的原始數據重要信息的統計量;提供敏感性分析的結果。