患者報告結局測量工具(patient-reported outcome measures,PROMs)測量屬性研究是指研究者為效驗 PROMs 的測量屬性(如信度)而進行的一系列研究。如果在這些測量屬性研究的設計和統計分析過程中存在缺陷,就會產生偏倚,影響測量工具的質量。COSMIN(consensus-based standards for the selection of health measurement instruments)指導委員會開發了 COSMIN-RoB 清單用以評估測量屬性研究的偏倚風險,該清單可用于制作 PROMs 測量屬性的系統評價,同時對于 PROMs 開發者而言,也可使用該清單指導測量工具的開發。目前,在國內尚缺乏測量屬性研究的偏倚風險評估工具,因此本文旨在介紹 COSMIN-RoB 清單的基本情況和使用原則,同時結合實例對內部結構研究部分的評價清單進行解讀,以期指導研究者使用 COSMIN-RoB 清單。
引用本文: 彭健, 沈藍君, 陳祎婷, 周同, 崔元斌, 鄒犖犖, 胡雁. COSMIN-RoB 清單簡介及測量工具內部結構研究的偏倚風險清單解讀. 中國循證醫學雜志, 2020, 20(10): 1234-1240. doi: 10.7507/1672-2531.202003163 復制
患者自我報告結局測量工具(patient-reported outcome measures,PROMs)允許患者通過自己的認知和判斷對自我健康狀況進行評估與審查(如癌癥患者生活質量評估工具),對醫學研究具有非常重要的意義[1]。PROMs 測量屬性研究是研究者為驗證 PROMs 的測量屬性而進行的一系列研究[1]。在這些測量屬性研究的設計和統計分析過程中如果存在缺陷,就會產生偏倚,影響測量工具的效力。為客觀地評價這些偏倚風險,由荷蘭、美國、西班牙等研究機構的心理測量學專家組成的 COSMIN(consensus-based standards for the selection of health measurement instruments)指導委員會于 2010 年開發了 COSMIN 清單[2],并在 2018 年進行了更新,形成了 COSMIN-RoB(COSMIN risk of bias)清單[3]。2019 年,該清單也成為了 JBI(Joanna Briggs Institute)PROMs 測量屬性系統評價制作的推薦工具。
COSMIN-RoB 清單可用于制作系統評價,同時對于 PROMs 開發者而言,也可使用該清單指導測量工具開發,以減少偏倚。因此,該工具對于提高測量工具的方法學質量也具有重要的意義。目前,國內尚缺乏類似的評價工具,為使讀者更好地理解和使用該工具,本文將簡要介紹 COSMIN-RoB 清單,同時將以“癌癥患者自我管理測評量表的編制及信效度檢驗”[4]和“亞健康量表中醫生和護士的測量不變性”[5]研究為例,對 COSMIN-RoB 清單中內部結構部分進行解讀。
1 COSIM-RoB 清單簡介
1.1 COSMIN-RoB 清單制定過程
2010 年,COSMIN 指導委員會通過開展多國專家的德爾菲研究制定了 COSMIN 清單,并驗證了不同評定者間信度[2, 6]。此后,COSMIN 清單廣泛應用于 PROMs 系統評價的制作。但是隨著對于理解的不斷深入,原有的 COSMIN 清單也逐漸暴露出一些問題。因此,2018 年,COSMIN 指導委員會嚴格審查了 COSMIN 存在的問題,區分了研究的偏倚風險和報告質量,同時廣泛收集了使用者的建議,制定了 COSMIN-RoB 清單[3]。目前,COSMIN-RoB 清單已經受到了廣泛認可。
1.2 COSMIN-RoB 清單的結構
COSMIN-RoB 清單分為 3 個部分,共 10 個框目,分別評價內容效度研究、內部結構研究和其他測量屬性研究的偏倚風險(表 1)。每個框目一般包含兩個部分:研究設計和統計方法。同時,在每個框目中,還包括一個條目詢問“是否有其他重要的方法學缺陷?”,評價者可自行判斷研究中是否有清單中未提到的方法學缺陷。

1.3 COSMI-RoB 清單評分方法
COSMIN-RoB 清單采用 4 點評分法對每項研究的偏倚風險進行評價,分別是“很好”、“良好”、“模糊”或“不良”。“很好”是指研究的偏倚風險很低。“不良”是指研究的偏倚風險很高。某一框目的整體偏倚風險評分是由框目所有條目的最低評分決定(即最低計分原則),如框目 3 結構效度包含了 4 個評價條目,4 個條目的最低計分為“模糊”,那么結構效度研究的整體偏倚風險就為“模糊”。
1.4 COSMIN-RoB 清單使用順序
使用 COSMIN-RoB 清單的過程一般可分為 4 個階段:① 評估相關性;② 評價 PROMs 的內容效度;③ 評價 PROMs 的內部結構;④ 評價 PROMs 的其他測量屬性。
1.4.1 評估相關性(模塊化使用原則)
COSMIN-RoB 清單中每個框目都是一個單獨的模塊,可分開獨立使用(模塊化使用原則)。研究者很少(有時也不需要)效驗所有類型的測量屬性[7],因此,使用 COSMIN-RoB 清單時,評價者首先需明確該 PROMs 目前存在哪些測量屬性研究(即評估相關性),從而靈活選擇對應的框目。也是因為如此,以下所敘述的評價順序只是一種參考,因為某些測量屬性研究(比如穩定性研究)本身可能就不存在。
1.4.2 評價 PROMs 內容效度
內容效度是指 PROMs 的內容與所測構念的吻合程度[7]。內容效度是最重要的測量屬性。COSMIN 指導委員會指出如果有高質量證據證明 PROMs 的內容效度不良,那么也就沒有必要評價其他的測量屬性。因此,評價者應該首先評價 PROMs 的內容效度[1]。PROMs 內容效度的評價方法與其他測量屬性不同,評價過程較為復雜,可獨立于其他測量屬性單獨制作系統評價,其方法可參見 Terwee 等[8]和 Chiarotto 等[9]的研究。
1.4.3 評價 PROMs 內部結構
COSMIN 建議在評估 PROMs 的內容效度后評估內部結構[1]。內部結構關注 PROMs 中每個條目的質量和不同條目間的關系,對于解釋各個條目如何構成量表非常重要。內部結構包含結構效度、內部一致性和跨文化效度/測量不變性,對應清單中的框目 3-5。其中,結構效度有助于解釋內部一致性系數(如 Cronbach's alpha 系數),因此 COSMIN 建議先評價結構效度,再評價內部一致性和跨文化效度/測量不變性。
1.4.4 評價 PROMs 其他測量屬性
其他測量屬性包括穩定性、測量誤差、效標效度、假設檢驗(構念效度)和反應度。與上述的內部結構不同,這些測量屬性反映的是 PROMs 整體的質量,而非條目的質量。COSMIN 建議可最后評價其他測量屬性。
1.5 使用 COSMIN-RoB 清單的注意事項
評價者不需要填寫 COSMIN-RoB 清單的空白區域。COSMIN 清單中存在空白區域的原因有 2 種:① 該區域所代表的情況并不存在,例如,框目 6 的條目 1“測量間隔期,受試者的待測構念是否穩定?”。顯然,評價 PROMs 穩定性研究的偏倚風險,一定需要判斷“待測構念”是否穩定,不存在“不適用”的情況,因此該條目中“不適用”所對應的格子為空白,不需要評價者填寫。② 清單開發者認為該區域所對應的評級不合適。例如,框目 6 的條目 2“測量的時間間隔是否合適?”,清單的開發者認為,時間間隔合適就是“很好”,不清楚時間間隔就是“模糊”,時間間隔不合適就是“不良”,不存在評分為“良好”的可能。因此,該條目中“良好”所對應的格子是空白。
2 PROMs 內部結構研究的偏倚風險評價清單解讀
內部結構研究的偏倚風險評價清單只適用于基于反應模型(reflective model)構建的 PROMs[10]。反應模型是指 PROMs 的所有條目都是某一潛在構念的表現形式,各條目之間高度相關,并且可互換。與之相對的是形成模型(formative model),在形成模型中,是條目共同形成了構念,這些條目之間不需要相互關聯[11]。
2.1 評價 PROMs 結構效度研究的偏倚風險
結構效度(structure validity)是指 PROMs 維度與所測構念維度的吻合程度[7],該測量屬性通常使用因子分析進行評估[11, 12]。結構效度研究的偏倚風險評估清單詳見表 2。框目 3 的前 2 個問題不是評分標準,其作用是幫助評價者判斷是否應該使用該框目。關于第 1 個問題,前文已經介紹了反應模型和形成模型的區別,顯然,根據結構效度的定義,基于形成模型構建的 PROMs 不存在結構效度[13, 14]。第 2 個問題是希望評價者明確“單維性”和結構效度的區別。結構效度強調 PROMs 整體的因子結構,比如通過因子分析,具有 3 個維度的 PROMs 可擬合形成 1 個三因子的模型。而“單維性”強調 PROMs 中各維度的條目是否度量單個構念,通常是對每個維度單獨進行因子分析進行評估。在單維 PROMs 中,結構效度和“單維性”是一致的,但是在多維 PROMs 中,結構效度和“單維性”不能等同,不能通過計算各個維度的“單維性”來替代計算 PROMs 整體的結構效度[11]。

在“癌癥患者自我管理測評量表的編制及信效度檢驗”實例中,研究者根據既有的自我管理框架構建了 PROMs,可認為其采用了反應模型,并且其通過因子分析的方法驗證了其結構效度,所以可使用框目 3 進行評價。
2.1.1 條目 1
在經典測量理論(classical test theory,CTT)中,因子分析是評估結構效度的首選方法,其中驗證性因子分析優于探索性因子分析[15]。驗證性因子分析適用于所測構念維度確定的情況,而探索性因子分析則適用于所測構念維度不確定的情況[15]。在“癌癥患者自我管理測評量表的編制及信效度檢驗”實例中,研究者采用了 CTT,并且使用了探索性因子分析,因此該條目被評為“良好”。
2.1.2 條目 2
針對特定的數據類型,應該選擇合適的 IRT(item response theory,IRT)模型,比如 Rasch 模型不適用于多級計分數據。關于 IRT 的具體要求可參考 Embretson 等[14]的著作。在“癌癥患者自我管理測評量表的編制及信效度檢驗”實例中,研究者并未使用 IRT 模型,因此該條目評為“不適用”。
2.1.3 條目 3
因子分析或 IRT/Rasch 分析均需要較大的樣本量。條目 3 中建議的樣本量是根據已有研究結果[13-16],并且結合經驗提出的。在“癌癥患者自我管理測評量表的編制及信效度檢驗”實例中,研究者使用了探索性因子分析,量表的條目數是 44,樣本量是 290 例,大于條目數的 5 倍,但少于 7 倍,所以條目 3 被評為“良好”。
2.1.4 條目 4
COSMIN-RoB 清單沒有給出因子分析的具體要求,如探索性因子分析方法的選擇(如主成分分析或公因子分析),旋轉方法的選擇(如正交旋轉或斜交旋轉)及如何確定相關因子數量。這些具體要求可參考 de Vet 等[17]的研究。當因子分析的質量存在嚴重缺陷時,COSMIN 建議對條目 4 給予“模糊”或“不良”的評分。在“癌癥患者自我管理測評量表的編制及信效度檢驗”實例中,研究者采用主成分分析和斜交旋轉(Kaiser 標準化最優斜交法)驗證結構效度,并未見其他重要的方法學缺陷,因此條目 4 評為“很好”。
根據 COSMIN 提出的“最低計分原則”,“癌癥患者自我管理測評量表的編制及信效度檢驗”實例中,結構效度研究的偏倚風險應該被評為“良好”。
2.2 評價 PROMs 內部一致性研究的偏倚風險
內部一致性是指 PROMs 中各條目之間相互關聯的程度,通常使用 Cronbach’s alpha 系數進行評估[7, 11]。在計算內部一致性系數之前,研究者首先應該明確 PROMs 中的每個分量表是否具有“單維性”。“單維性”是解釋內部一致性的先決條件,可通過因子分析進行評估(表 2)[1]。內部一致性研究的偏倚風險評估清單詳見表 3,框目 4 的第 1 個問題同樣不是評價標準,但可幫助評價者判斷是否應該使用該框目進行評價。只有當 PROMs 是基于反應模型構建時,內部一致性才可被解釋[1]。在“癌癥患者自我管理測評量表的編制及信效度檢驗”實例中,PROMs 是基于反應模型構建的,可使用框目 4 進行評價。

2.2.1 條目 1
研究者首先應該明確 PROMs 中的每個分量表是否具有“單維性”,關于“單維性”的信息可通過結構效度研究獲得。在此基礎上,研究者應該分別計算 PROMs 中每個分量表的內部一致性系數。如果研究者計算了總量表(如包含 4 個子量表的 PROMs)和每個分量表的內部一致性系數,總量表的內部一致性系數可忽略。如果研究者只計算了總量表的內部一致性系數,那么該條目就應該評為“不良”。如果在相關文獻中沒有發現該量表的結構效度或“單維性”的信息,那么該條目應該評為“模糊”。在“癌癥患者自我管理測評量表的編制及信效度檢驗”實例中,根據結構效度的研究結果,可判斷,PROMs 各分量表具有單維性,并且研究者計算了每個分量表的 Cronbach’s alpha 系數,因此該條目被評為“很好”。
2.2.2 條目 2 和條目 3
基于 CTT 的研究應計算 Cronbach’s alpha 系數或 Omega 值等[18]。在“癌癥患者自我管理測評量表的編制及信效度檢驗”實例中,該 PROMs 采用 Likert 5 級評分法,屬于定量數據,同時研究者計算了 Cronbach’s alpha 系數,因此條目 2 被評為“很好”,條目 3 被評為“不適用”。
2.2.3 條目 4
基于 IRT/Rasch 分析的內部一致性研究應該計算 SE(θ)或其他信度系數,如項目(或受試者)差異指數[14]。在“癌癥患者自我管理測評量表的編制及信效度檢驗”實例中,研究者未采用 IRT/Rasch 分析,因此該條目被評為“不適用”。
2.2.4 條目 5
該條目是由評價者判斷是否有其他方法學缺陷。在“癌癥患者自我管理測評量表的編制及信效度檢驗”實例中,內部一致性研究未見其他重要的方法學缺陷,所以該條目被評為“很好”。
以上 5 個條目的最低計分為“很好”。因此,根據 COSMIN 提出的“最低計分原則”,“癌癥患者自我管理測評量表的編制及信效度檢驗”實例中的內部一致性研究的偏倚風險被評為“很好”。
2.3 評價 PROMs 跨文化效度/測量不變性研究的偏倚風險
指在不同文化群體中進行測量時,PROMs 各條目得分的一致程度[11]。注意此處的跨文化效度不同于“跨文化調試”,因為“跨文化調試”是指兩個不同語言版本的 PROMs 各條目在語義的一致性,其并不是一種測量屬性。評估跨文化效度/測量不變性至少需要兩個不同組別的樣本,如不同語言群體,或者不同性別群體。COSMIN 不僅將不同的種族或語言群體視為不同的文化群體,而且將不同的性別或年齡群體,或不同的患者群體同樣視為“不同文化群體”。計算 PROMs 的測量不變性(measurement invariance,MI)或是計算 PROMs 是否發生項目功能差異(differential item function,DIF)是評估跨文化效度的主要方法[11]。測量不變性和項目功能差異是指具有相同潛在特征的不同群體,對于 PROMs 某一特定條目的反應是否相似。跨文化效度/測量不變性研究的偏倚風險評估清單詳見表 4。

2.3.1 條目 1
評估跨文化效度通常需要在一個統計模型中直接比較兩組(或兩組以上)樣本的得分。分組可是基于語言(例如,中文版本與英語版本量表的比較),也可是基于其他變量,例如男性與女性。除分組變量外,兩組樣本的疾病嚴重程度、年齡等其他相關變量的分布應該相似。在一項研究中,性別可能是分組變量,而在另一項研究中(如中文版本與英語版本量表的比較),性別就是兩組應該分布相似的相關變量。評審團隊需要判斷在各個組中是否所有相關特征的分布都相似。在“亞健康量表中醫生和護士的測量不變性”實例中,研究者驗證了亞健康量表在醫生和護士這兩個群體的測量不變性,但是文中并沒有隨機抽取樣本,也沒有提供具體信息說明其他相關變量的分布是否相同,因此,條目 1 被評為“模糊”。
2.3.2 條目 2
在 CTT 中,評估跨文化效度比較合適的方法是回歸分析或驗證性因子分析[11]。在 IRT 中,DIF 分析是比較適合的跨文化效度的評估方法[11]。在“亞健康量表中醫生和護士的測量不變性”實例中,研究者使用了多組驗證性因子分析(multi-group confirmatory factor analysis,MGCFA),方法恰當,因此該條目被評為“很好”。
2.3.3 條目 3
驗證性因子分析、IRT 分析或回歸分析均需要較大樣本量才能獲得可靠的結果。基于 Scott 等[19]的研究,COSMIN 對樣本量提出了清單中的建議(表 4)。在“亞健康量表中醫生和護士的測量不變性”實例中,研究者使用了多組驗證性因子分析的方法,其樣本量為 1 832,遠大于 PROMs 條目數的 7 倍,因此,條目 3 被評為“很好”。
2.3.4 條目 4
該條目是由評價者判斷是否有其他方法學缺陷。在“亞健康量表中醫生和護士的測量不變性”實例中,跨文化效度/測量不變性研究未見其他重要的方法學缺陷,所以該條目被評為“很好”。
以上 4 個條目的最低計分為“模糊”,因此,根據 COSMIN 提出的“最低計分原則”,“亞健康量表中醫生和護士的測量不變性”實例的偏倚風險應該被評為“模糊”。
3 討論
本文簡要介紹了 COSMIN-RoB 清單,首先 COSMIN-RoB 清單對于測量屬性的分類基于明確的國際共識,系統全面的包含了 PROMs 可能存在的測量屬性;其次清單區分了偏倚風險和報告質量的差異,符合循證的最新理念;最后該工具的內容也非常詳細具體,即使評價者不是 PROMs 開發和測量屬性方面的專家,也可很好地使用該工具指導測量屬性研究偏倚風險的評價。
本文同時選取了 2 個 PROMs 作為案例,評估了其內部結構研究的偏倚風險。結果顯示,癌癥患者自我管理測評量表的結構效度研究的偏倚風險為“良好”,內部一致性研究的偏倚風險為“很好”。亞健康量表測量不變性研究的偏倚風險為“模糊”。引起偏倚風險的主要原因包括評價結構效度時未使用驗證性因子分析,樣本量未達到規定要求。評價測量不變性時,除了分組變量外,未清楚的描述其他相關變量是否相似。因此,我們建議研究者在進行研究設計和統計分析時應該注意這些問題。
內部結構研究的偏倚風險清單非常具體,使用也很方便,但是還是存在一些不足,比如在結構效度研究的偏倚風險清單中規定了分析時應該包含的樣本量,但是這只是經驗性原則,在不同的情況下,樣本量的要求可能是不同的。比如,越復雜的模型可能就需要更多的樣本量,或者精度要求越高的研究就需要更多的樣本量,這需要評價者自己去判斷,可能會影響評價的結果。再比如,每個框目都有一個問題詢問是否存在其他方法學缺陷,但是除了結構效度研究以外,其他研究并沒有給出可能存在的方法學缺陷的實例,這也可能會影響評價的結果,今后可進一步改進。
COSMIN 指導委員會開發 COSMIN-RoB 清單的設計過程科學合理,雖然該評價工具目前仍然存在信度、效度及其推廣應用情況仍有待時間檢驗的問題,但是我們仍然推薦研究者在制作 PROMs 系統評價的過程中使用 COSMIN-RoB 清單。PROMs 的開發者也可使用該工具指導研究設計和實施過程。
患者自我報告結局測量工具(patient-reported outcome measures,PROMs)允許患者通過自己的認知和判斷對自我健康狀況進行評估與審查(如癌癥患者生活質量評估工具),對醫學研究具有非常重要的意義[1]。PROMs 測量屬性研究是研究者為驗證 PROMs 的測量屬性而進行的一系列研究[1]。在這些測量屬性研究的設計和統計分析過程中如果存在缺陷,就會產生偏倚,影響測量工具的效力。為客觀地評價這些偏倚風險,由荷蘭、美國、西班牙等研究機構的心理測量學專家組成的 COSMIN(consensus-based standards for the selection of health measurement instruments)指導委員會于 2010 年開發了 COSMIN 清單[2],并在 2018 年進行了更新,形成了 COSMIN-RoB(COSMIN risk of bias)清單[3]。2019 年,該清單也成為了 JBI(Joanna Briggs Institute)PROMs 測量屬性系統評價制作的推薦工具。
COSMIN-RoB 清單可用于制作系統評價,同時對于 PROMs 開發者而言,也可使用該清單指導測量工具開發,以減少偏倚。因此,該工具對于提高測量工具的方法學質量也具有重要的意義。目前,國內尚缺乏類似的評價工具,為使讀者更好地理解和使用該工具,本文將簡要介紹 COSMIN-RoB 清單,同時將以“癌癥患者自我管理測評量表的編制及信效度檢驗”[4]和“亞健康量表中醫生和護士的測量不變性”[5]研究為例,對 COSMIN-RoB 清單中內部結構部分進行解讀。
1 COSIM-RoB 清單簡介
1.1 COSMIN-RoB 清單制定過程
2010 年,COSMIN 指導委員會通過開展多國專家的德爾菲研究制定了 COSMIN 清單,并驗證了不同評定者間信度[2, 6]。此后,COSMIN 清單廣泛應用于 PROMs 系統評價的制作。但是隨著對于理解的不斷深入,原有的 COSMIN 清單也逐漸暴露出一些問題。因此,2018 年,COSMIN 指導委員會嚴格審查了 COSMIN 存在的問題,區分了研究的偏倚風險和報告質量,同時廣泛收集了使用者的建議,制定了 COSMIN-RoB 清單[3]。目前,COSMIN-RoB 清單已經受到了廣泛認可。
1.2 COSMIN-RoB 清單的結構
COSMIN-RoB 清單分為 3 個部分,共 10 個框目,分別評價內容效度研究、內部結構研究和其他測量屬性研究的偏倚風險(表 1)。每個框目一般包含兩個部分:研究設計和統計方法。同時,在每個框目中,還包括一個條目詢問“是否有其他重要的方法學缺陷?”,評價者可自行判斷研究中是否有清單中未提到的方法學缺陷。

1.3 COSMI-RoB 清單評分方法
COSMIN-RoB 清單采用 4 點評分法對每項研究的偏倚風險進行評價,分別是“很好”、“良好”、“模糊”或“不良”。“很好”是指研究的偏倚風險很低。“不良”是指研究的偏倚風險很高。某一框目的整體偏倚風險評分是由框目所有條目的最低評分決定(即最低計分原則),如框目 3 結構效度包含了 4 個評價條目,4 個條目的最低計分為“模糊”,那么結構效度研究的整體偏倚風險就為“模糊”。
1.4 COSMIN-RoB 清單使用順序
使用 COSMIN-RoB 清單的過程一般可分為 4 個階段:① 評估相關性;② 評價 PROMs 的內容效度;③ 評價 PROMs 的內部結構;④ 評價 PROMs 的其他測量屬性。
1.4.1 評估相關性(模塊化使用原則)
COSMIN-RoB 清單中每個框目都是一個單獨的模塊,可分開獨立使用(模塊化使用原則)。研究者很少(有時也不需要)效驗所有類型的測量屬性[7],因此,使用 COSMIN-RoB 清單時,評價者首先需明確該 PROMs 目前存在哪些測量屬性研究(即評估相關性),從而靈活選擇對應的框目。也是因為如此,以下所敘述的評價順序只是一種參考,因為某些測量屬性研究(比如穩定性研究)本身可能就不存在。
1.4.2 評價 PROMs 內容效度
內容效度是指 PROMs 的內容與所測構念的吻合程度[7]。內容效度是最重要的測量屬性。COSMIN 指導委員會指出如果有高質量證據證明 PROMs 的內容效度不良,那么也就沒有必要評價其他的測量屬性。因此,評價者應該首先評價 PROMs 的內容效度[1]。PROMs 內容效度的評價方法與其他測量屬性不同,評價過程較為復雜,可獨立于其他測量屬性單獨制作系統評價,其方法可參見 Terwee 等[8]和 Chiarotto 等[9]的研究。
1.4.3 評價 PROMs 內部結構
COSMIN 建議在評估 PROMs 的內容效度后評估內部結構[1]。內部結構關注 PROMs 中每個條目的質量和不同條目間的關系,對于解釋各個條目如何構成量表非常重要。內部結構包含結構效度、內部一致性和跨文化效度/測量不變性,對應清單中的框目 3-5。其中,結構效度有助于解釋內部一致性系數(如 Cronbach's alpha 系數),因此 COSMIN 建議先評價結構效度,再評價內部一致性和跨文化效度/測量不變性。
1.4.4 評價 PROMs 其他測量屬性
其他測量屬性包括穩定性、測量誤差、效標效度、假設檢驗(構念效度)和反應度。與上述的內部結構不同,這些測量屬性反映的是 PROMs 整體的質量,而非條目的質量。COSMIN 建議可最后評價其他測量屬性。
1.5 使用 COSMIN-RoB 清單的注意事項
評價者不需要填寫 COSMIN-RoB 清單的空白區域。COSMIN 清單中存在空白區域的原因有 2 種:① 該區域所代表的情況并不存在,例如,框目 6 的條目 1“測量間隔期,受試者的待測構念是否穩定?”。顯然,評價 PROMs 穩定性研究的偏倚風險,一定需要判斷“待測構念”是否穩定,不存在“不適用”的情況,因此該條目中“不適用”所對應的格子為空白,不需要評價者填寫。② 清單開發者認為該區域所對應的評級不合適。例如,框目 6 的條目 2“測量的時間間隔是否合適?”,清單的開發者認為,時間間隔合適就是“很好”,不清楚時間間隔就是“模糊”,時間間隔不合適就是“不良”,不存在評分為“良好”的可能。因此,該條目中“良好”所對應的格子是空白。
2 PROMs 內部結構研究的偏倚風險評價清單解讀
內部結構研究的偏倚風險評價清單只適用于基于反應模型(reflective model)構建的 PROMs[10]。反應模型是指 PROMs 的所有條目都是某一潛在構念的表現形式,各條目之間高度相關,并且可互換。與之相對的是形成模型(formative model),在形成模型中,是條目共同形成了構念,這些條目之間不需要相互關聯[11]。
2.1 評價 PROMs 結構效度研究的偏倚風險
結構效度(structure validity)是指 PROMs 維度與所測構念維度的吻合程度[7],該測量屬性通常使用因子分析進行評估[11, 12]。結構效度研究的偏倚風險評估清單詳見表 2。框目 3 的前 2 個問題不是評分標準,其作用是幫助評價者判斷是否應該使用該框目。關于第 1 個問題,前文已經介紹了反應模型和形成模型的區別,顯然,根據結構效度的定義,基于形成模型構建的 PROMs 不存在結構效度[13, 14]。第 2 個問題是希望評價者明確“單維性”和結構效度的區別。結構效度強調 PROMs 整體的因子結構,比如通過因子分析,具有 3 個維度的 PROMs 可擬合形成 1 個三因子的模型。而“單維性”強調 PROMs 中各維度的條目是否度量單個構念,通常是對每個維度單獨進行因子分析進行評估。在單維 PROMs 中,結構效度和“單維性”是一致的,但是在多維 PROMs 中,結構效度和“單維性”不能等同,不能通過計算各個維度的“單維性”來替代計算 PROMs 整體的結構效度[11]。

在“癌癥患者自我管理測評量表的編制及信效度檢驗”實例中,研究者根據既有的自我管理框架構建了 PROMs,可認為其采用了反應模型,并且其通過因子分析的方法驗證了其結構效度,所以可使用框目 3 進行評價。
2.1.1 條目 1
在經典測量理論(classical test theory,CTT)中,因子分析是評估結構效度的首選方法,其中驗證性因子分析優于探索性因子分析[15]。驗證性因子分析適用于所測構念維度確定的情況,而探索性因子分析則適用于所測構念維度不確定的情況[15]。在“癌癥患者自我管理測評量表的編制及信效度檢驗”實例中,研究者采用了 CTT,并且使用了探索性因子分析,因此該條目被評為“良好”。
2.1.2 條目 2
針對特定的數據類型,應該選擇合適的 IRT(item response theory,IRT)模型,比如 Rasch 模型不適用于多級計分數據。關于 IRT 的具體要求可參考 Embretson 等[14]的著作。在“癌癥患者自我管理測評量表的編制及信效度檢驗”實例中,研究者并未使用 IRT 模型,因此該條目評為“不適用”。
2.1.3 條目 3
因子分析或 IRT/Rasch 分析均需要較大的樣本量。條目 3 中建議的樣本量是根據已有研究結果[13-16],并且結合經驗提出的。在“癌癥患者自我管理測評量表的編制及信效度檢驗”實例中,研究者使用了探索性因子分析,量表的條目數是 44,樣本量是 290 例,大于條目數的 5 倍,但少于 7 倍,所以條目 3 被評為“良好”。
2.1.4 條目 4
COSMIN-RoB 清單沒有給出因子分析的具體要求,如探索性因子分析方法的選擇(如主成分分析或公因子分析),旋轉方法的選擇(如正交旋轉或斜交旋轉)及如何確定相關因子數量。這些具體要求可參考 de Vet 等[17]的研究。當因子分析的質量存在嚴重缺陷時,COSMIN 建議對條目 4 給予“模糊”或“不良”的評分。在“癌癥患者自我管理測評量表的編制及信效度檢驗”實例中,研究者采用主成分分析和斜交旋轉(Kaiser 標準化最優斜交法)驗證結構效度,并未見其他重要的方法學缺陷,因此條目 4 評為“很好”。
根據 COSMIN 提出的“最低計分原則”,“癌癥患者自我管理測評量表的編制及信效度檢驗”實例中,結構效度研究的偏倚風險應該被評為“良好”。
2.2 評價 PROMs 內部一致性研究的偏倚風險
內部一致性是指 PROMs 中各條目之間相互關聯的程度,通常使用 Cronbach’s alpha 系數進行評估[7, 11]。在計算內部一致性系數之前,研究者首先應該明確 PROMs 中的每個分量表是否具有“單維性”。“單維性”是解釋內部一致性的先決條件,可通過因子分析進行評估(表 2)[1]。內部一致性研究的偏倚風險評估清單詳見表 3,框目 4 的第 1 個問題同樣不是評價標準,但可幫助評價者判斷是否應該使用該框目進行評價。只有當 PROMs 是基于反應模型構建時,內部一致性才可被解釋[1]。在“癌癥患者自我管理測評量表的編制及信效度檢驗”實例中,PROMs 是基于反應模型構建的,可使用框目 4 進行評價。

2.2.1 條目 1
研究者首先應該明確 PROMs 中的每個分量表是否具有“單維性”,關于“單維性”的信息可通過結構效度研究獲得。在此基礎上,研究者應該分別計算 PROMs 中每個分量表的內部一致性系數。如果研究者計算了總量表(如包含 4 個子量表的 PROMs)和每個分量表的內部一致性系數,總量表的內部一致性系數可忽略。如果研究者只計算了總量表的內部一致性系數,那么該條目就應該評為“不良”。如果在相關文獻中沒有發現該量表的結構效度或“單維性”的信息,那么該條目應該評為“模糊”。在“癌癥患者自我管理測評量表的編制及信效度檢驗”實例中,根據結構效度的研究結果,可判斷,PROMs 各分量表具有單維性,并且研究者計算了每個分量表的 Cronbach’s alpha 系數,因此該條目被評為“很好”。
2.2.2 條目 2 和條目 3
基于 CTT 的研究應計算 Cronbach’s alpha 系數或 Omega 值等[18]。在“癌癥患者自我管理測評量表的編制及信效度檢驗”實例中,該 PROMs 采用 Likert 5 級評分法,屬于定量數據,同時研究者計算了 Cronbach’s alpha 系數,因此條目 2 被評為“很好”,條目 3 被評為“不適用”。
2.2.3 條目 4
基于 IRT/Rasch 分析的內部一致性研究應該計算 SE(θ)或其他信度系數,如項目(或受試者)差異指數[14]。在“癌癥患者自我管理測評量表的編制及信效度檢驗”實例中,研究者未采用 IRT/Rasch 分析,因此該條目被評為“不適用”。
2.2.4 條目 5
該條目是由評價者判斷是否有其他方法學缺陷。在“癌癥患者自我管理測評量表的編制及信效度檢驗”實例中,內部一致性研究未見其他重要的方法學缺陷,所以該條目被評為“很好”。
以上 5 個條目的最低計分為“很好”。因此,根據 COSMIN 提出的“最低計分原則”,“癌癥患者自我管理測評量表的編制及信效度檢驗”實例中的內部一致性研究的偏倚風險被評為“很好”。
2.3 評價 PROMs 跨文化效度/測量不變性研究的偏倚風險
指在不同文化群體中進行測量時,PROMs 各條目得分的一致程度[11]。注意此處的跨文化效度不同于“跨文化調試”,因為“跨文化調試”是指兩個不同語言版本的 PROMs 各條目在語義的一致性,其并不是一種測量屬性。評估跨文化效度/測量不變性至少需要兩個不同組別的樣本,如不同語言群體,或者不同性別群體。COSMIN 不僅將不同的種族或語言群體視為不同的文化群體,而且將不同的性別或年齡群體,或不同的患者群體同樣視為“不同文化群體”。計算 PROMs 的測量不變性(measurement invariance,MI)或是計算 PROMs 是否發生項目功能差異(differential item function,DIF)是評估跨文化效度的主要方法[11]。測量不變性和項目功能差異是指具有相同潛在特征的不同群體,對于 PROMs 某一特定條目的反應是否相似。跨文化效度/測量不變性研究的偏倚風險評估清單詳見表 4。

2.3.1 條目 1
評估跨文化效度通常需要在一個統計模型中直接比較兩組(或兩組以上)樣本的得分。分組可是基于語言(例如,中文版本與英語版本量表的比較),也可是基于其他變量,例如男性與女性。除分組變量外,兩組樣本的疾病嚴重程度、年齡等其他相關變量的分布應該相似。在一項研究中,性別可能是分組變量,而在另一項研究中(如中文版本與英語版本量表的比較),性別就是兩組應該分布相似的相關變量。評審團隊需要判斷在各個組中是否所有相關特征的分布都相似。在“亞健康量表中醫生和護士的測量不變性”實例中,研究者驗證了亞健康量表在醫生和護士這兩個群體的測量不變性,但是文中并沒有隨機抽取樣本,也沒有提供具體信息說明其他相關變量的分布是否相同,因此,條目 1 被評為“模糊”。
2.3.2 條目 2
在 CTT 中,評估跨文化效度比較合適的方法是回歸分析或驗證性因子分析[11]。在 IRT 中,DIF 分析是比較適合的跨文化效度的評估方法[11]。在“亞健康量表中醫生和護士的測量不變性”實例中,研究者使用了多組驗證性因子分析(multi-group confirmatory factor analysis,MGCFA),方法恰當,因此該條目被評為“很好”。
2.3.3 條目 3
驗證性因子分析、IRT 分析或回歸分析均需要較大樣本量才能獲得可靠的結果。基于 Scott 等[19]的研究,COSMIN 對樣本量提出了清單中的建議(表 4)。在“亞健康量表中醫生和護士的測量不變性”實例中,研究者使用了多組驗證性因子分析的方法,其樣本量為 1 832,遠大于 PROMs 條目數的 7 倍,因此,條目 3 被評為“很好”。
2.3.4 條目 4
該條目是由評價者判斷是否有其他方法學缺陷。在“亞健康量表中醫生和護士的測量不變性”實例中,跨文化效度/測量不變性研究未見其他重要的方法學缺陷,所以該條目被評為“很好”。
以上 4 個條目的最低計分為“模糊”,因此,根據 COSMIN 提出的“最低計分原則”,“亞健康量表中醫生和護士的測量不變性”實例的偏倚風險應該被評為“模糊”。
3 討論
本文簡要介紹了 COSMIN-RoB 清單,首先 COSMIN-RoB 清單對于測量屬性的分類基于明確的國際共識,系統全面的包含了 PROMs 可能存在的測量屬性;其次清單區分了偏倚風險和報告質量的差異,符合循證的最新理念;最后該工具的內容也非常詳細具體,即使評價者不是 PROMs 開發和測量屬性方面的專家,也可很好地使用該工具指導測量屬性研究偏倚風險的評價。
本文同時選取了 2 個 PROMs 作為案例,評估了其內部結構研究的偏倚風險。結果顯示,癌癥患者自我管理測評量表的結構效度研究的偏倚風險為“良好”,內部一致性研究的偏倚風險為“很好”。亞健康量表測量不變性研究的偏倚風險為“模糊”。引起偏倚風險的主要原因包括評價結構效度時未使用驗證性因子分析,樣本量未達到規定要求。評價測量不變性時,除了分組變量外,未清楚的描述其他相關變量是否相似。因此,我們建議研究者在進行研究設計和統計分析時應該注意這些問題。
內部結構研究的偏倚風險清單非常具體,使用也很方便,但是還是存在一些不足,比如在結構效度研究的偏倚風險清單中規定了分析時應該包含的樣本量,但是這只是經驗性原則,在不同的情況下,樣本量的要求可能是不同的。比如,越復雜的模型可能就需要更多的樣本量,或者精度要求越高的研究就需要更多的樣本量,這需要評價者自己去判斷,可能會影響評價的結果。再比如,每個框目都有一個問題詢問是否存在其他方法學缺陷,但是除了結構效度研究以外,其他研究并沒有給出可能存在的方法學缺陷的實例,這也可能會影響評價的結果,今后可進一步改進。
COSMIN 指導委員會開發 COSMIN-RoB 清單的設計過程科學合理,雖然該評價工具目前仍然存在信度、效度及其推廣應用情況仍有待時間檢驗的問題,但是我們仍然推薦研究者在制作 PROMs 系統評價的過程中使用 COSMIN-RoB 清單。PROMs 的開發者也可使用該工具指導研究設計和實施過程。