臨床研究結果判讀不僅需要關注統計學意義(P<0.05),還應關注結果的臨床意義。最小臨床意義差值(MCID)的提出為結果臨床意義的判斷提供了依據。此外,MCID 還可在指南制訂過程中協助證據質量判斷、為臨床試驗提供樣本量估算依據和指導臨床決策等。本文主要介紹 MCID 的概念和定義的演變、四種常用估算方法的細節、影響因素、各自的優缺點和適用范圍,為研究者進行 MCID 估算方法選擇提供參考和指導。
引用本文: 楊麗虹, 劉少南, 吳大嶸, 葛龍, 郭新峰. 最小臨床意義差值的概念及其估算方法. 中國循證醫學雜志, 2020, 20(11): 1345-1352. doi: 10.7507/1672-2531.202007091 復制
對臨床研究結果的判斷已從單純關注統計學差異(P<0.05),發展到同時關注結果的臨床意義和臨床效應量的大小。隨機對照試驗報告規范 CONSORT 及其補充聲明強調,試驗結果推導時除了統計學意義還需結合臨床意義考慮[1]。假設檢驗能幫助我們判斷結果看到的差異是否來自隨機誤差(即兩組數據是否真正存在差異)[2],但差異的變化幅度是否具有臨床意義呢?這個問題可以通過最小臨床意義差值(minimal clinically important difference,MCID)來回答,臨床研究結果必須大于 MCID 方可認為具有臨床意義。此外,MCID 還可在指南制訂過程中協助證據質量判斷、為臨床試驗提供樣本量估算依據和指導臨床決策等。本文主要通過介紹 MCID 的概念和定義的演變、四種常用估算方法的細節、影響因素、各自的優缺點和適用范圍等,為研究者對 MCID 估算方法的選擇提供參考和指導。
1 MCID 的概念與定義
MCID 最早提出是為解決生存質量量表和臨床療效問卷分值變化的臨床意義解釋的問題。隨后,學者們從不同角度對 MCID 的概念和定義做出修訂(表 1)[3],其使用范圍也在擴展和延伸。

1.1 MCID
1987 年,麥克馬斯特大學 Guyatt 等 3 位學者提出,評價量表實用性時除了常用的信度和效度之外,還應考慮其發現最小臨床差異的能力,即量表的反應度[4]。雖然沒有給出 MCID 的定義,但提出了這個差異值可通過已知其效應大小的治療措施引起的變化進行初步估算。1989 年,Jaeschke 和 Guyatt 等正式對 MCID 進行了定義:在不考慮副作用和成本負擔的情況下,患者認為有獲益的最小變化值,該變化可促使改變患者管理方案[5]。這是 MCID 發展史上最具影響力的定義。2002 年,Guyatt 等指出臨床意義的目標受眾包括醫生、患者和衛生政策制定者等,“臨床”的界定應該更加廣泛,故他們將其稱為最小重要差值(minimal important difference,MID)[6]。MCID 和 MID 兩者均是被廣泛使用的術語。
1.2 最小可測變化值
2003 年,Norman 等指出 Jaeschke 等提出的 MCID 概念并沒有考慮到獲益和副作用或費用的權衡,因此更適合于將該定義視為最小可測差值(minimally detectable difference,MDD)[7]。MDD 或最小可測變化值(minimal detectable change,MDC)是一個與測量誤差高度相關的概念:指除測量誤差外,測量工具可以檢測到的最小變化。但并非任何變化都是有真正意義的改變,微小的變化可能是因為測量誤差引起的。de Vet 等認為不應將 MDC 等同與 MCID,兩者是不同的概念[8, 9],且基于分布法計算出來的 MDC 是個統計界值,并沒有體現任何“臨床意義”。
1.3 充分變化值
在上述提及的 MCID 定義中,均沒有把成本和風險等納入考慮。2005 年,Barrett 等對“臨床意義”進行了延伸,提出充分重要差值(sufficiently important difference,SID)的概念:在考慮相關成本、風險和便捷性等因素后,患者認為重要的最小獲益[10]。
2 MCID 的估算方法
目前主要使用的方法包括效標法、分布法、文獻分析法和專家共識法等。效標法的估算過程結合了專業臨床意義,是主要推薦的估算方法;但它忽略了測量誤差。分布法考慮了測量誤差,對多種指標的估算方法均有明確的計算公式,易于操作;但單純從統計學角度得出的估算結果無法反映其臨床意義,一般作為輔助方法,不單獨使用。文獻分析法是對既往不斷累積的臨床試驗結果進行系統回顧,可能提供目標測量指標與主要臨床終點相關性的數據,可作為確定 MCID 的參考依據。專家共識法基于群組決策和共識確定 MCID,受到參與專家經驗和知識領域的影響,主觀性較強;雖不建議直接使用共識法確定 MCID,但可對其他方法獲得多個 MCID 估計值開展專家共識,確定最終的 MCID。
2.1 效標法
效標法,亦翻譯為錨定法,又稱“外部參照”法,是通過檢驗目標測量工具與另一個獨立的測量工具(外部效標)的關系來闡明目標測量工具數值變化的含義[6]。效標法包括 3 個重要內容:效標的選擇、截點值的確定和統計方法的選擇。
2.1.1 效標的選擇
效標的選擇是效標法的核心。選擇效標時,需考慮其與疾病進展和預后的相關性、臨床可解釋性和臨床接受程度,并且與目標測量工具之間應具有中等程度以上的相關性。Revicki 等[19]推薦兩者的相關系數應≥0.3~0.35。兩者相關性越強,其結果推論的可信度則越高;反之,弱相關容易產生誤導性的推論[20];若相關性為零,則基于該效標估算的 MCID 沒有任何意義。效標可選擇一個或多個。當僅選用一個效標來估算時,需要兩者有更強的相關性才能產生令人信服的推論。另外,考慮到效標選擇的多樣性和定義最小差異的臨界值的不確定性,單一效標估算的結果往往容易出現偏差,故學者們普遍建議采用多個獨立效標進行估算的策略。
效標包括主觀效標和客觀效標。主觀效標按評價者分為患者觀點、醫生觀點和費用支付者觀點等類型[21]。主觀效標是對既往一段時間內病情變化的判斷,容易出現多種偏倚。客觀效標可選擇實驗室檢查指標、生理檢查指標和臨床結局等。如 Witt 等選用 6 分鐘步行距離(6 min walking distance,6MWD)、用力肺活量百分比(percent of forced vital capacity,FVC%)和一氧化碳彌散量百分比(percent of diffusing capacity for carbon monoxide,DLCO%)等客觀效標來估算 SF-36 身體因子分和心理因子分在特發性肺纖維化患者治療中的 MCID[22]。
對于病死率這一終點指標是否適合作為效標,學者們有著不同的觀點。Gupta[23]等對 Polkey 等[24]通過病死率為效標估算 6MWD 在慢性阻塞性肺疾病(chronic obstructive pulmonary disease,COPD)患者的 MCID 提出質疑。Gupta 等認為沒有比死亡更差的結局了,以其為效標估算出來的步行距離的改變應該是最大而不是最小的臨床差異[23]。但 Polkey 等認為對于非致死性或病死率極低的疾病來說,使用生存質量或反映疾病嚴重程度變化的替代指標可能是更合適的效標,但對如 COPD 中晚期死亡風險較高的疾病,以臨床相關重要結局如病死率為效標,通過 6MWD 的變化預測死亡風險,對臨床實踐決策和臨床研究設計都更有價值[25]。
2.1.2 截點值的確定
對于已建立 MCID 的效標,可直接采用 MCID 作為截點值;等級變量的效標,可結合臨床判斷改變一個或多個等級作為截點值。
2.1.3 效標法的統計方法
2.1.3.1 均數差法
均數差法根據數據分布選擇統計值:若差值服從正態分布,以差值的均值為 MCID;若服從偏態分布,以中位數作為 MCID[26, 27]。依據效標的截點值可劃分出輕微變化組和無變化組人群。在橫斷面設計中,MCID 是輕微變化組和無變化組的目標測量指標的均數差。在縱向設計中,MCID 可通過兩組均數差進行估算,亦可通過輕微變化組的目標測量指標在治療前后的均數差獲得。
首個 MCID 的研究采用了縱向數據組內差異的均數差法[5]。以患者主觀判斷的總體評價為效標,對氣促、疲倦等癥狀進行 15 個等級的總體評價(?7:嚴重惡化,0:沒有變化,7:明顯好轉)。評價為 1~3 分/?3~?1 分者為輕微改善/惡化組。輕微改善/惡化組患者治療前后的慢性呼吸問卷和慢性心力衰竭問卷評分的均數差為相應的 MCID。
2.1.3.2 受試者工作特征(receiver operating characteristic,ROC)曲線法
采用類似診斷試驗的思路,將目標測量指標視為新方法,效標視為金標準。通過設定多個效標的截點值,計算其敏感度和特異度;并以敏感度作為縱坐標、1?特異度作為橫坐標繪制 ROC 曲線。選擇約登指數(敏感度+特異度?1)最大的點作為 MCID 估計值。通過 ROC 曲線下面積(area under curve,AUC)判斷該截點值的準確性。AUC>0.7 說明準確性較高[28]。
2.1.3.3 回歸分析法
通過建立效標和目標測量指標的數學模型估算 MCID。Patrick 等以血紅蛋白(hemoglobin,Hb)為效標,估算促紅素治療白血病患者貧血的健康相關生活質量量表(health-related quality of life,HrQOL)的 MCID,采用線性回歸模型建立量表和 Hb 兩者變化值的回歸方程(ΔHrQOL=α+βΔHb+ε,其中 α 為常數項,β 為回歸系數,ΔHb 為 Hb 變化的截點值,ε 為誤差項)。臨床醫生可根據各自經驗設定效標(Hb)的截點值,Hb 改變達截點值的單位數時相應量表的分數變化即為量表的 MCID[29]。
2.1.4 效標法的優點及其局限
效標法對所估算的 MCID 可以給出專業的臨床意義解釋。這也是學者們推薦以效標法為主確定 MCID 的原因。但其估算過程涉及樣本、效標和統計方法的選擇等多個環節均可能會影響估算結果。使用不同的效標可能會得出不同的 MCID。不同估算方法采用人群內部前后變化數據或是人群組間差異數據來估算、使用指標的絕對值或是相對值來估算及使用改善或是惡化兩個不同方向來估算等及樣本選擇方面包括人群的人口學特征、疾病診斷及其嚴重程度、基線狀態和接受的干預措施等因素均可能會影響其結果。其次,效標法忽略了測量誤差,效標法估算的 MCID 很有可能在測量工具的隨機誤差范圍內,那么這個估算值則沒有指導意義,不適宜選作為 MCID。再者,效標的數據分布特征可能會影響結果。如效標呈高度偏態分布,MCID 的估算則會受到異常值的影響[30]。
2.2 分布法
分布法,又稱為“內部參照”法[20],是基于樣本數據分布情況從統計學角度來估算 MCID(表 2)。

2.2.1 基于統計學差異的估算方法
Speer 和 Greenbaum 提出生長曲線分析法,使用個體數據的估計生長系數來測量個體變化[31]。計算方法是斜率的經驗貝葉斯估計值除以斜率標準誤的經驗貝葉斯估計值[31]。該法要求較大的樣本量,且其他條件不變情況下,該法計算的指標隨樣本量增加而增加[32]。另外,該法需要滿足缺失數據類型為隨機缺失的使用假設[33]。
2.2.2 基于樣本變異性的估算方法
與基于統計差異的估算方法相比,本類估算方法的特征是不受樣本量影響。
2.2.2.1 效應值(effect size,ES)
ES 是一個反映“信噪比”的統計量,通過前后兩次測量結果的均數差除以基線測量結果的標準差[ES=(Xpost?Xpre)/SDpre]。對于效應量的大小解釋,Cohen 建議分別以 0.2、0.5 和 0.8 作為弱效應量、中等效應量和大效應量的判斷界值[34]。Samsa 等基于文獻回顧,提出以 ES 為 0.2 作為 MCID 的估算[35]。Norman 等認為 ES 為 0.5 適合作為 MCID 的估算[7]。由 ES 計算公式可知,ES 估算 MCID 容易受到基線數據分布所影響,基線數據的標準差越大,產生的效應則越小[36]。另外,ES 估算沒有考慮到前后差值的分布情況[32]。
2.2.2.2 標準化反應平均數(standardized response mean,SRM)
SRM 是與 ES 相似的統計量,但 SRM 考慮了前后數據差值的分布,不受基線數據分布的影響,彌補了 ES 估算的不足。具體計算是前后兩次測量結果的均數差除以其標準差[SRM=(Xpost?Xpre)/SDdiff]。SRM 同樣以 0.2、05 和 0.8 為效應大小的判斷界值[37]。
2.2.2.3 標準差(standard deviation,SD)
Norman 等對 38 個研究分析的結果顯示除少數研究外,HrQOL 的 MCID 接近于 0.5 個 SD,提示以 0.5 個 SD 估算 MCID[7]。也有研究使用 1/3 或 1 個 SD 來估算[7]。
2.2.3 基于測量工具精確性的估算方法
2.2.3.1 標準測量誤差(standard error of measurement,SEM)
理論上來說,一個測量工具所測得的實際數值應該等于真實數值加上誤差。誤差越小,實際數值越接近真實值。任何低于 SEM 的實際數值都可能是由測量誤差引起的,而并非真正變化。SEM 反映的是測量工具的特性,而不是樣本的特征(SEM=SD0,其中 SD0 為基線數據的標準差,r 為測量工具的可靠性系數)。對于量表結局指標,r 一般采用重測信度,在重測信度系數缺如的情況下可采用克朗巴赫系數(Cronbach’s α);對于非量表結局指標,r 可采用組內相關系數(intra-class correlation reliability,ICC)。上述系數均是反映前后兩次測量結果一致性的相關系數指標,取值范圍在 0~1 之間,>0.7 認為信度較好[38]。在實際應用中,因為 r 的取值方法不同和極端值的存在,同一個測量工具在不同樣本中會得到不同的 SEM。
大部分研究使用 1 個 SEM 作為 MCID 的估計值[39-41]。也有學者建議使用更保守的 1.96 個 SEM[32](1.96 是標準正態曲線上 95% 可信區間對應的值)來減少結果的假陽性的概率。對于數據來源于兩組樣本而非同一組樣本前后的結果時,可使用調整了樣本抽樣誤差的 2.77 個 SEM 作為估計值()[42, 43]。
2.2.3.2 可靠變化指數(reliable change index,RCI)
RCI 是與 SEM 相關的統計量。RCI=(Xpost–Xpre)/SEdiff,其中,SEdiff 是前后測量結果差值的測量誤差的標準差(SEdiff=)[44]。有學者建議將 RCI 與所選可信區間水平的 z 值相乘來估算 MCID[45]。如,選擇 95%CI,則將 RCI 乘以 1.96 為 MCID 的估算值。
2.2.4 分布法的優點和局限
分布法考慮了測量誤差,有明確的計算公式,實際操作易于實現;且分布法得出的是標準化無量綱的指標,可以在不同人群和研究之間進行比較[32]。分布法中基于測量工具精確度的估算方法(如 SEM 和 RCI)更為可靠。它們量化了測量工具的隨機誤差,并且不受樣本量、基線數據以及前后差值變異程度的影響。
但分布法基于純粹的統計推理,它們本身并不能表明所觀察到變化的臨床意義,只能識別出 MDC[30]。樣本大小不同會改變其結果,樣本量越大,樣本數據的變異性相對變小,估算的 MCID 相應變小,甚至接近于零。這是分布法的數學特性,與臨床變化無關。不少學者認為分布法不適合作為 MCID 的估算方法,其結果僅作為參考。FDA 建議將分布法作為效標法的輔助方法來確定 MCID[46]。只有在效標法無法實施的情況下,才考慮單獨使用分布法。而分布法的擁護者對于哪個截點最合適作為 MCID 估計值的問題也存在爭議,并且他們也認識到這些方法需要與其他臨床標準進行比較以提高其臨床重要性的可解釋性[32]。分布法的另外一個局限是它們都是基于群體數據變化進行估算,故其適用于臨床研究,但不適用于對臨床中單個患者進行臨床療效評價。
2.3 文獻分析法
不斷累積的臨床試驗證據為確定 MCID 提供了豐富且有價值的信息。Revicki 等建議在確定 MCID 時,應系統回顧既往發表的臨床試驗結果,綜合目標測量工具的療效變化作為 MCID 選擇的參考依據[19]。如 OMERACT 組織通過系統性回顧風濕性關節炎、骨關節炎、骨質疏松和腰痛的臨床研究文獻中常用結局評價指標治療前后的變化作為其 MCID 的參考范圍[15]。
2.4 專家共識法
專家共識法是基于群組決策和共識的方法來確定 MCID 或是從多種方法估算的 MCID 中最終確定一個 MCID 值。風濕病結局評價組織(Outcome Measures in Rheumatology,OMERACT)認為專家共識法是確定評價風濕病關節結構性損傷進展影像學檢查的 MCID 的合理方法[47]。骨關節炎課題組在開展臨床試驗前,通過 3 輪的德爾菲專家共識確定系列結局評價指標的 MCID[48]。該法主要受到參與專家的經驗和知識領域等影響,主觀性較強。在共識過程中,結合文獻分析法以及實際臨床數據擬定 MCID 參考值或參考范圍供專家參考評價,可提高結果的可信度和可行性。如美國風濕病學學會類風濕性關節炎臨床療效標準 ACR20(American College of Rheumatology 20% improvement criteria)的確定過程是一個很好的例子[49]。首先進行臨床醫生調查:從既往開展的臨床試驗中隨機選擇療效接近期望改善閾值(20%~45%)的受試者信息,由 89 名風濕病學家根據核心指標的變化情況判斷每位受試者是否有臨床改善。然后是備選改善標準篩選:選擇 80% 以上風濕病學家判斷為有臨床改善的受試者,用項目組預先確定的多種改善標準進行判斷,并保留與專家判斷相一致的改善標準。其次是備選改善標準確定:在含有 5 個隨機安慰劑對照試驗的數據集中分析備選改善標準,選擇具有最大能力區分出治療措施和安慰劑之間療效差異的改善標準。最后通過專家共識法,確定 ACR 核心指標較基線改善 20%(ACR20)作為評價類風濕性關節炎治療療效的標準[49]。
3 實例解析
Oliveira 等基于除外需要住院、緊急插管、機械通氣的 COPD 急性加重期患者的隊列,收集急性加重 48 小時內(發作期 T1)和加重后 45 天(穩定期 T2)的 COPD 自我評估測試(COPD assessment test,CAT)、改良 Borg 量表(modified Borg scale,MBS),呼吸困難評分(modified British Medical Research Council,mMRC)、外周氧飽和度(peripheral oxygen saturation,SpO2)和 1 秒用力呼氣容積(forced expiratory volume in one second,FEV1)等數據,通過分步法和效標法計算系列評價指標的 MCID[50]。本文僅取其中 MBS、mMRC、SpO2 和 FEV1 四個指標的 MCID 計算舉例。研究分為以下三步進行:① 分步法估算 MDC:分別使用 ES=(MT1-MT2)、0.5SDT1、SEM=SDT1
和
進行計算,其中 ICC1,2 為各指標既往發表的兩次測量結果的組內相關系數,如 SpO2 的 ICC=0.89[51]、MBS 的 ICC=0.95[51]、FEV1 的 ICC=0.96[52]。② 效標法估算 MCID:選擇 CAT 為效標,計算皮爾遜相關系數判斷效標與各目標測量指標的相關程度,僅對相關系數>0.3 符合效標選擇要求者使用效標法估算[19]。以 CAT 的 MCID(2 分)[53]為截點值區分隊列人群的輕微改善組和未改善組,分別采用線性回歸模型和 ROC 曲線進行估算。③ 分布法和效標法的估算值合并:通過 Meta XL5.3 軟件,采用質量效應模型予以效標法更大的權重對兩類估算結果進行合并。研究結果顯示僅 MBS、mMRC 和 FEV1 三個指標和效標的相關系數>0.3,故效標法僅適用于上述三個指標。但因 MBS 和 FEV1 的 ROC 曲線的 AUC 分別為 0.63 和 0.67,故不取兩者的 ROC 曲線估算的 MCID 值。四個指標各種方法的估算值和合并 MCID 估算值見表 3。

4 小結
目前,MCID 的最佳估算方法尚無共識,每種方法都有其優點和局限,且各種方法估算結果有一定差異。以效標法為主、其他方法輔助是學者們主要推薦的 MCID 估算策略。Johnston 等在 2015 年啟動了 MCID 研究數據庫項目,全面檢索 PubMed、EMbase 和 PsycINFO 數據庫獲取基于效標法估算 PRO 測量工具的 MCID 研究,并開發 MCID 可信度評估工具,對所有獲取的研究進可信度評價,為研究者們提供詳盡的 MCID 估算方法的資料[54]。對各種方法估算出來的多個 MCID 該如何選擇或如何綜合及 MCID 應用過程中的注意事項等,有待于新的研究進一步分析。
對臨床研究結果的判斷已從單純關注統計學差異(P<0.05),發展到同時關注結果的臨床意義和臨床效應量的大小。隨機對照試驗報告規范 CONSORT 及其補充聲明強調,試驗結果推導時除了統計學意義還需結合臨床意義考慮[1]。假設檢驗能幫助我們判斷結果看到的差異是否來自隨機誤差(即兩組數據是否真正存在差異)[2],但差異的變化幅度是否具有臨床意義呢?這個問題可以通過最小臨床意義差值(minimal clinically important difference,MCID)來回答,臨床研究結果必須大于 MCID 方可認為具有臨床意義。此外,MCID 還可在指南制訂過程中協助證據質量判斷、為臨床試驗提供樣本量估算依據和指導臨床決策等。本文主要通過介紹 MCID 的概念和定義的演變、四種常用估算方法的細節、影響因素、各自的優缺點和適用范圍等,為研究者對 MCID 估算方法的選擇提供參考和指導。
1 MCID 的概念與定義
MCID 最早提出是為解決生存質量量表和臨床療效問卷分值變化的臨床意義解釋的問題。隨后,學者們從不同角度對 MCID 的概念和定義做出修訂(表 1)[3],其使用范圍也在擴展和延伸。

1.1 MCID
1987 年,麥克馬斯特大學 Guyatt 等 3 位學者提出,評價量表實用性時除了常用的信度和效度之外,還應考慮其發現最小臨床差異的能力,即量表的反應度[4]。雖然沒有給出 MCID 的定義,但提出了這個差異值可通過已知其效應大小的治療措施引起的變化進行初步估算。1989 年,Jaeschke 和 Guyatt 等正式對 MCID 進行了定義:在不考慮副作用和成本負擔的情況下,患者認為有獲益的最小變化值,該變化可促使改變患者管理方案[5]。這是 MCID 發展史上最具影響力的定義。2002 年,Guyatt 等指出臨床意義的目標受眾包括醫生、患者和衛生政策制定者等,“臨床”的界定應該更加廣泛,故他們將其稱為最小重要差值(minimal important difference,MID)[6]。MCID 和 MID 兩者均是被廣泛使用的術語。
1.2 最小可測變化值
2003 年,Norman 等指出 Jaeschke 等提出的 MCID 概念并沒有考慮到獲益和副作用或費用的權衡,因此更適合于將該定義視為最小可測差值(minimally detectable difference,MDD)[7]。MDD 或最小可測變化值(minimal detectable change,MDC)是一個與測量誤差高度相關的概念:指除測量誤差外,測量工具可以檢測到的最小變化。但并非任何變化都是有真正意義的改變,微小的變化可能是因為測量誤差引起的。de Vet 等認為不應將 MDC 等同與 MCID,兩者是不同的概念[8, 9],且基于分布法計算出來的 MDC 是個統計界值,并沒有體現任何“臨床意義”。
1.3 充分變化值
在上述提及的 MCID 定義中,均沒有把成本和風險等納入考慮。2005 年,Barrett 等對“臨床意義”進行了延伸,提出充分重要差值(sufficiently important difference,SID)的概念:在考慮相關成本、風險和便捷性等因素后,患者認為重要的最小獲益[10]。
2 MCID 的估算方法
目前主要使用的方法包括效標法、分布法、文獻分析法和專家共識法等。效標法的估算過程結合了專業臨床意義,是主要推薦的估算方法;但它忽略了測量誤差。分布法考慮了測量誤差,對多種指標的估算方法均有明確的計算公式,易于操作;但單純從統計學角度得出的估算結果無法反映其臨床意義,一般作為輔助方法,不單獨使用。文獻分析法是對既往不斷累積的臨床試驗結果進行系統回顧,可能提供目標測量指標與主要臨床終點相關性的數據,可作為確定 MCID 的參考依據。專家共識法基于群組決策和共識確定 MCID,受到參與專家經驗和知識領域的影響,主觀性較強;雖不建議直接使用共識法確定 MCID,但可對其他方法獲得多個 MCID 估計值開展專家共識,確定最終的 MCID。
2.1 效標法
效標法,亦翻譯為錨定法,又稱“外部參照”法,是通過檢驗目標測量工具與另一個獨立的測量工具(外部效標)的關系來闡明目標測量工具數值變化的含義[6]。效標法包括 3 個重要內容:效標的選擇、截點值的確定和統計方法的選擇。
2.1.1 效標的選擇
效標的選擇是效標法的核心。選擇效標時,需考慮其與疾病進展和預后的相關性、臨床可解釋性和臨床接受程度,并且與目標測量工具之間應具有中等程度以上的相關性。Revicki 等[19]推薦兩者的相關系數應≥0.3~0.35。兩者相關性越強,其結果推論的可信度則越高;反之,弱相關容易產生誤導性的推論[20];若相關性為零,則基于該效標估算的 MCID 沒有任何意義。效標可選擇一個或多個。當僅選用一個效標來估算時,需要兩者有更強的相關性才能產生令人信服的推論。另外,考慮到效標選擇的多樣性和定義最小差異的臨界值的不確定性,單一效標估算的結果往往容易出現偏差,故學者們普遍建議采用多個獨立效標進行估算的策略。
效標包括主觀效標和客觀效標。主觀效標按評價者分為患者觀點、醫生觀點和費用支付者觀點等類型[21]。主觀效標是對既往一段時間內病情變化的判斷,容易出現多種偏倚。客觀效標可選擇實驗室檢查指標、生理檢查指標和臨床結局等。如 Witt 等選用 6 分鐘步行距離(6 min walking distance,6MWD)、用力肺活量百分比(percent of forced vital capacity,FVC%)和一氧化碳彌散量百分比(percent of diffusing capacity for carbon monoxide,DLCO%)等客觀效標來估算 SF-36 身體因子分和心理因子分在特發性肺纖維化患者治療中的 MCID[22]。
對于病死率這一終點指標是否適合作為效標,學者們有著不同的觀點。Gupta[23]等對 Polkey 等[24]通過病死率為效標估算 6MWD 在慢性阻塞性肺疾病(chronic obstructive pulmonary disease,COPD)患者的 MCID 提出質疑。Gupta 等認為沒有比死亡更差的結局了,以其為效標估算出來的步行距離的改變應該是最大而不是最小的臨床差異[23]。但 Polkey 等認為對于非致死性或病死率極低的疾病來說,使用生存質量或反映疾病嚴重程度變化的替代指標可能是更合適的效標,但對如 COPD 中晚期死亡風險較高的疾病,以臨床相關重要結局如病死率為效標,通過 6MWD 的變化預測死亡風險,對臨床實踐決策和臨床研究設計都更有價值[25]。
2.1.2 截點值的確定
對于已建立 MCID 的效標,可直接采用 MCID 作為截點值;等級變量的效標,可結合臨床判斷改變一個或多個等級作為截點值。
2.1.3 效標法的統計方法
2.1.3.1 均數差法
均數差法根據數據分布選擇統計值:若差值服從正態分布,以差值的均值為 MCID;若服從偏態分布,以中位數作為 MCID[26, 27]。依據效標的截點值可劃分出輕微變化組和無變化組人群。在橫斷面設計中,MCID 是輕微變化組和無變化組的目標測量指標的均數差。在縱向設計中,MCID 可通過兩組均數差進行估算,亦可通過輕微變化組的目標測量指標在治療前后的均數差獲得。
首個 MCID 的研究采用了縱向數據組內差異的均數差法[5]。以患者主觀判斷的總體評價為效標,對氣促、疲倦等癥狀進行 15 個等級的總體評價(?7:嚴重惡化,0:沒有變化,7:明顯好轉)。評價為 1~3 分/?3~?1 分者為輕微改善/惡化組。輕微改善/惡化組患者治療前后的慢性呼吸問卷和慢性心力衰竭問卷評分的均數差為相應的 MCID。
2.1.3.2 受試者工作特征(receiver operating characteristic,ROC)曲線法
采用類似診斷試驗的思路,將目標測量指標視為新方法,效標視為金標準。通過設定多個效標的截點值,計算其敏感度和特異度;并以敏感度作為縱坐標、1?特異度作為橫坐標繪制 ROC 曲線。選擇約登指數(敏感度+特異度?1)最大的點作為 MCID 估計值。通過 ROC 曲線下面積(area under curve,AUC)判斷該截點值的準確性。AUC>0.7 說明準確性較高[28]。
2.1.3.3 回歸分析法
通過建立效標和目標測量指標的數學模型估算 MCID。Patrick 等以血紅蛋白(hemoglobin,Hb)為效標,估算促紅素治療白血病患者貧血的健康相關生活質量量表(health-related quality of life,HrQOL)的 MCID,采用線性回歸模型建立量表和 Hb 兩者變化值的回歸方程(ΔHrQOL=α+βΔHb+ε,其中 α 為常數項,β 為回歸系數,ΔHb 為 Hb 變化的截點值,ε 為誤差項)。臨床醫生可根據各自經驗設定效標(Hb)的截點值,Hb 改變達截點值的單位數時相應量表的分數變化即為量表的 MCID[29]。
2.1.4 效標法的優點及其局限
效標法對所估算的 MCID 可以給出專業的臨床意義解釋。這也是學者們推薦以效標法為主確定 MCID 的原因。但其估算過程涉及樣本、效標和統計方法的選擇等多個環節均可能會影響估算結果。使用不同的效標可能會得出不同的 MCID。不同估算方法采用人群內部前后變化數據或是人群組間差異數據來估算、使用指標的絕對值或是相對值來估算及使用改善或是惡化兩個不同方向來估算等及樣本選擇方面包括人群的人口學特征、疾病診斷及其嚴重程度、基線狀態和接受的干預措施等因素均可能會影響其結果。其次,效標法忽略了測量誤差,效標法估算的 MCID 很有可能在測量工具的隨機誤差范圍內,那么這個估算值則沒有指導意義,不適宜選作為 MCID。再者,效標的數據分布特征可能會影響結果。如效標呈高度偏態分布,MCID 的估算則會受到異常值的影響[30]。
2.2 分布法
分布法,又稱為“內部參照”法[20],是基于樣本數據分布情況從統計學角度來估算 MCID(表 2)。

2.2.1 基于統計學差異的估算方法
Speer 和 Greenbaum 提出生長曲線分析法,使用個體數據的估計生長系數來測量個體變化[31]。計算方法是斜率的經驗貝葉斯估計值除以斜率標準誤的經驗貝葉斯估計值[31]。該法要求較大的樣本量,且其他條件不變情況下,該法計算的指標隨樣本量增加而增加[32]。另外,該法需要滿足缺失數據類型為隨機缺失的使用假設[33]。
2.2.2 基于樣本變異性的估算方法
與基于統計差異的估算方法相比,本類估算方法的特征是不受樣本量影響。
2.2.2.1 效應值(effect size,ES)
ES 是一個反映“信噪比”的統計量,通過前后兩次測量結果的均數差除以基線測量結果的標準差[ES=(Xpost?Xpre)/SDpre]。對于效應量的大小解釋,Cohen 建議分別以 0.2、0.5 和 0.8 作為弱效應量、中等效應量和大效應量的判斷界值[34]。Samsa 等基于文獻回顧,提出以 ES 為 0.2 作為 MCID 的估算[35]。Norman 等認為 ES 為 0.5 適合作為 MCID 的估算[7]。由 ES 計算公式可知,ES 估算 MCID 容易受到基線數據分布所影響,基線數據的標準差越大,產生的效應則越小[36]。另外,ES 估算沒有考慮到前后差值的分布情況[32]。
2.2.2.2 標準化反應平均數(standardized response mean,SRM)
SRM 是與 ES 相似的統計量,但 SRM 考慮了前后數據差值的分布,不受基線數據分布的影響,彌補了 ES 估算的不足。具體計算是前后兩次測量結果的均數差除以其標準差[SRM=(Xpost?Xpre)/SDdiff]。SRM 同樣以 0.2、05 和 0.8 為效應大小的判斷界值[37]。
2.2.2.3 標準差(standard deviation,SD)
Norman 等對 38 個研究分析的結果顯示除少數研究外,HrQOL 的 MCID 接近于 0.5 個 SD,提示以 0.5 個 SD 估算 MCID[7]。也有研究使用 1/3 或 1 個 SD 來估算[7]。
2.2.3 基于測量工具精確性的估算方法
2.2.3.1 標準測量誤差(standard error of measurement,SEM)
理論上來說,一個測量工具所測得的實際數值應該等于真實數值加上誤差。誤差越小,實際數值越接近真實值。任何低于 SEM 的實際數值都可能是由測量誤差引起的,而并非真正變化。SEM 反映的是測量工具的特性,而不是樣本的特征(SEM=SD0,其中 SD0 為基線數據的標準差,r 為測量工具的可靠性系數)。對于量表結局指標,r 一般采用重測信度,在重測信度系數缺如的情況下可采用克朗巴赫系數(Cronbach’s α);對于非量表結局指標,r 可采用組內相關系數(intra-class correlation reliability,ICC)。上述系數均是反映前后兩次測量結果一致性的相關系數指標,取值范圍在 0~1 之間,>0.7 認為信度較好[38]。在實際應用中,因為 r 的取值方法不同和極端值的存在,同一個測量工具在不同樣本中會得到不同的 SEM。
大部分研究使用 1 個 SEM 作為 MCID 的估計值[39-41]。也有學者建議使用更保守的 1.96 個 SEM[32](1.96 是標準正態曲線上 95% 可信區間對應的值)來減少結果的假陽性的概率。對于數據來源于兩組樣本而非同一組樣本前后的結果時,可使用調整了樣本抽樣誤差的 2.77 個 SEM 作為估計值()[42, 43]。
2.2.3.2 可靠變化指數(reliable change index,RCI)
RCI 是與 SEM 相關的統計量。RCI=(Xpost–Xpre)/SEdiff,其中,SEdiff 是前后測量結果差值的測量誤差的標準差(SEdiff=)[44]。有學者建議將 RCI 與所選可信區間水平的 z 值相乘來估算 MCID[45]。如,選擇 95%CI,則將 RCI 乘以 1.96 為 MCID 的估算值。
2.2.4 分布法的優點和局限
分布法考慮了測量誤差,有明確的計算公式,實際操作易于實現;且分布法得出的是標準化無量綱的指標,可以在不同人群和研究之間進行比較[32]。分布法中基于測量工具精確度的估算方法(如 SEM 和 RCI)更為可靠。它們量化了測量工具的隨機誤差,并且不受樣本量、基線數據以及前后差值變異程度的影響。
但分布法基于純粹的統計推理,它們本身并不能表明所觀察到變化的臨床意義,只能識別出 MDC[30]。樣本大小不同會改變其結果,樣本量越大,樣本數據的變異性相對變小,估算的 MCID 相應變小,甚至接近于零。這是分布法的數學特性,與臨床變化無關。不少學者認為分布法不適合作為 MCID 的估算方法,其結果僅作為參考。FDA 建議將分布法作為效標法的輔助方法來確定 MCID[46]。只有在效標法無法實施的情況下,才考慮單獨使用分布法。而分布法的擁護者對于哪個截點最合適作為 MCID 估計值的問題也存在爭議,并且他們也認識到這些方法需要與其他臨床標準進行比較以提高其臨床重要性的可解釋性[32]。分布法的另外一個局限是它們都是基于群體數據變化進行估算,故其適用于臨床研究,但不適用于對臨床中單個患者進行臨床療效評價。
2.3 文獻分析法
不斷累積的臨床試驗證據為確定 MCID 提供了豐富且有價值的信息。Revicki 等建議在確定 MCID 時,應系統回顧既往發表的臨床試驗結果,綜合目標測量工具的療效變化作為 MCID 選擇的參考依據[19]。如 OMERACT 組織通過系統性回顧風濕性關節炎、骨關節炎、骨質疏松和腰痛的臨床研究文獻中常用結局評價指標治療前后的變化作為其 MCID 的參考范圍[15]。
2.4 專家共識法
專家共識法是基于群組決策和共識的方法來確定 MCID 或是從多種方法估算的 MCID 中最終確定一個 MCID 值。風濕病結局評價組織(Outcome Measures in Rheumatology,OMERACT)認為專家共識法是確定評價風濕病關節結構性損傷進展影像學檢查的 MCID 的合理方法[47]。骨關節炎課題組在開展臨床試驗前,通過 3 輪的德爾菲專家共識確定系列結局評價指標的 MCID[48]。該法主要受到參與專家的經驗和知識領域等影響,主觀性較強。在共識過程中,結合文獻分析法以及實際臨床數據擬定 MCID 參考值或參考范圍供專家參考評價,可提高結果的可信度和可行性。如美國風濕病學學會類風濕性關節炎臨床療效標準 ACR20(American College of Rheumatology 20% improvement criteria)的確定過程是一個很好的例子[49]。首先進行臨床醫生調查:從既往開展的臨床試驗中隨機選擇療效接近期望改善閾值(20%~45%)的受試者信息,由 89 名風濕病學家根據核心指標的變化情況判斷每位受試者是否有臨床改善。然后是備選改善標準篩選:選擇 80% 以上風濕病學家判斷為有臨床改善的受試者,用項目組預先確定的多種改善標準進行判斷,并保留與專家判斷相一致的改善標準。其次是備選改善標準確定:在含有 5 個隨機安慰劑對照試驗的數據集中分析備選改善標準,選擇具有最大能力區分出治療措施和安慰劑之間療效差異的改善標準。最后通過專家共識法,確定 ACR 核心指標較基線改善 20%(ACR20)作為評價類風濕性關節炎治療療效的標準[49]。
3 實例解析
Oliveira 等基于除外需要住院、緊急插管、機械通氣的 COPD 急性加重期患者的隊列,收集急性加重 48 小時內(發作期 T1)和加重后 45 天(穩定期 T2)的 COPD 自我評估測試(COPD assessment test,CAT)、改良 Borg 量表(modified Borg scale,MBS),呼吸困難評分(modified British Medical Research Council,mMRC)、外周氧飽和度(peripheral oxygen saturation,SpO2)和 1 秒用力呼氣容積(forced expiratory volume in one second,FEV1)等數據,通過分步法和效標法計算系列評價指標的 MCID[50]。本文僅取其中 MBS、mMRC、SpO2 和 FEV1 四個指標的 MCID 計算舉例。研究分為以下三步進行:① 分步法估算 MDC:分別使用 ES=(MT1-MT2)、0.5SDT1、SEM=SDT1
和
進行計算,其中 ICC1,2 為各指標既往發表的兩次測量結果的組內相關系數,如 SpO2 的 ICC=0.89[51]、MBS 的 ICC=0.95[51]、FEV1 的 ICC=0.96[52]。② 效標法估算 MCID:選擇 CAT 為效標,計算皮爾遜相關系數判斷效標與各目標測量指標的相關程度,僅對相關系數>0.3 符合效標選擇要求者使用效標法估算[19]。以 CAT 的 MCID(2 分)[53]為截點值區分隊列人群的輕微改善組和未改善組,分別采用線性回歸模型和 ROC 曲線進行估算。③ 分布法和效標法的估算值合并:通過 Meta XL5.3 軟件,采用質量效應模型予以效標法更大的權重對兩類估算結果進行合并。研究結果顯示僅 MBS、mMRC 和 FEV1 三個指標和效標的相關系數>0.3,故效標法僅適用于上述三個指標。但因 MBS 和 FEV1 的 ROC 曲線的 AUC 分別為 0.63 和 0.67,故不取兩者的 ROC 曲線估算的 MCID 值。四個指標各種方法的估算值和合并 MCID 估算值見表 3。

4 小結
目前,MCID 的最佳估算方法尚無共識,每種方法都有其優點和局限,且各種方法估算結果有一定差異。以效標法為主、其他方法輔助是學者們主要推薦的 MCID 估算策略。Johnston 等在 2015 年啟動了 MCID 研究數據庫項目,全面檢索 PubMed、EMbase 和 PsycINFO 數據庫獲取基于效標法估算 PRO 測量工具的 MCID 研究,并開發 MCID 可信度評估工具,對所有獲取的研究進可信度評價,為研究者們提供詳盡的 MCID 估算方法的資料[54]。對各種方法估算出來的多個 MCID 該如何選擇或如何綜合及 MCID 應用過程中的注意事項等,有待于新的研究進一步分析。