COSMIN-RoB 清單包括 3 個部分,共 10 個框目,分別用于評價內容效度研究、內部結構研究和其他測量屬性研究的偏倚風險。其中其他測量屬性研究關注 PROMs 整體的質量,包含穩定性、測量誤差、效標效度、假設檢驗(構念效度)和反應度。在這 5 種測量屬性中,穩定性、測量誤差及效標效度在研究中使用最為廣泛,因此,為使讀者更好地理解和使用 COSMIN-RoB 清單評價這 3 種 PROMs 測量屬性研究的偏倚風險,本文將結合具體實例進行解讀。
引用本文: 彭健, 沈藍君, 陳祎婷, 周同, 崔元斌, 鄒犖犖, 胡雁. 對 COSMIN-RoB 清單中測量工具穩定性、測量誤差和效標效度研究偏倚風險的清單解讀. 中國循證醫學雜志, 2020, 20(11): 1340-1344. doi: 10.7507/1672-2531.202003164 復制
患者報告結局測量工具(patient reported outcome measures,PROMs)是一種患者通過自己的認知和判斷對自我健康狀況進行評估與審查的工具(如癌癥患者生活質量測量工具),在醫學研究中具有非常重要的意義[1]。COSMIN(consensus-based standards for the selection of health measurement instruments)指導委員會開發了 COSMIN-RoB 清單(COSMIN risk of bias checklist)用以評估 PROMs 測量屬性研究的偏倚風險[2]。COSMIN 指導委員會將偏倚風險清單分為 3 個部分,共 10 個獨立模塊,分別評價內容效度研究、內部結構研究和其它測量屬性研究的偏倚風險[3]。其中,其他測量屬性研究關注 PROMs 整體的質量,包含穩定性、測量誤差、效標效度、假設檢驗和反應度。在這 5 種測量屬性中,穩定性、測量誤差及效標效度在研究中應用最為廣泛,因此,為使讀者更好地理解和使用該工具評價這 3 種 PROMs 測量屬性研究的偏倚風險,本文將以“青少年生命質量量表(YQOL-R)的漢化研究”[4](例 1)、“少年精神病態特質量表中文版的效度和信度”[5](例 2)進行解讀。
1 評價 PROMs 穩定性研究的偏倚風險
穩定性(reliability)指對同一受試者采用同樣的方法重復測量時所得結果的一致性程度,包含:①重測信度:在不同的時間進行測量;②評定者間信度:由不同評定者在同一場合進行測量;③ 評定者(或受試者)內信度:同一個評定者(或受試者)在不同場合進行測量(或被測量)[1, 6]。穩定性研究的偏倚風險評價清單詳見表 1。

條目 1 中受試者的所測構念在兩次測量之間應該保持穩定。研究者應該結合目標人群的特點判斷所測構念是否穩定。例如,當效驗“癌癥患者生活質量測量工具”的穩定性時,若患者病情控制良好(可提供證據證明,比如可收集患者疾病進展情況的信息),則可認為受試者的生活質量在測量間隔期是穩定的,那么,條目 1 可評為“很好”。如果患者在測量間隔期接受了干預,那么可認為受試者的生活質量發生了變化,此時,COSMIN 建議將該條目評為“不良”。在例 1 中,研究者“采取隨機函數法在完成量表的城市、農村、隨遷學生樣本中分別抽取 30 例,共 90 例,在基線調查結束后的 7~10 天內進行重測”。雖然研究者沒有給出明確證據證明受試者的生命質量是穩定的,但是通過隨機抽取的方法,可盡量避免其他因素對于受試者生活質量的影響,而且時間間隔只有 7~10 天,因此可認為受試者的生活質量是穩定的,所以該條目被評為“良好”。
條目 2 中效驗重測信度時,兩次測量時間間隔必須適當。首先,時間間隔應足夠長,目的是為了防止回憶偏倚;同時,時間間隔也應該足夠短,目的是確保患者的所測構念保持穩定。時間間隔是否合適取決于所測量的構念和目標人群的特點。通常認為合適的時間間隔是 2 周左右。在例 1 中,研究者選擇的重測時間是 7~10 天,略短于一般要求的 2 周。雖然受試者是青少年人群,可能與成年人群存在差異,但是研究者沒有給出選擇 7~10 天的理由,因此,該條目被評為“模糊”。
條目 3 中重復測量時的情境應該類似。測量情境指的是測量方式(如自填或他填)、測量環境(如在醫院或家中)及填寫指導和說明。不同的測量情境可能會影響測量結果。如果測量情境不相似,就有可能低估測量工具的穩定性。但是,也有一類研究會選擇性使用不同的測量情境,其目的通常是評估測量工具在不同測量情境下的穩定性,比如 Van Leeuwen 等[7]的研究,在這種情況下,該條目可評為“很好”。在例 1 中,研究者描述其將調查“安排在課余或午休時間”、“在單獨的會議室或報告廳進行”,采用“自評式量表調查方式,宣讀調查引導語后開始調查”。雖然,研究者未具體描述重測時是否也是同樣的情境,但是考慮到受試對象是學生,其可被調查的時間和地點應該是相對穩定的,因此可認為兩次重測時情境相似,所以該條目被評為“良好”。
條目 4 中對于定量數據,首選的穩定性統計量是組內相關系數(intraclass correlation coefficient,ICC)[8, 9]。重測設計是評估測量工具穩定性最直接的方法。該方法首選的 ICC 模型是雙向隨機效應模型[10],因為該模型既考慮了受試者內部的變異,也考慮了時間變化引起的變異(即系統變異)[11]。Pearson 或 Spearman 相關系數沒有考慮系統變異,因此如果在不清楚是否存在系統變異的情況下使用 Pearson 或 Spearman 相關系數,該條目應該被評為“模糊”。在例 1 中,量表產生的結果是“定量數據”,研究者使用了 ICC 作為統計學指標是合適的,因此該條目被評為“很好”。
條目 5、6 和 7 中對于分類數據,Cohen's Kappa 系數是首選的統計量[8]。對于有序數據,加權 Kappa 系數[9, 12, 13]是首選的統計量。在使用加權 Kappa 系數時應該說明加權方案(例如,線性加權或平方加權)[11, 14]。在例 1 中,量表產生的結果是“定量數據”,所以條目 5、6 和 7 被評為“不適用”。
條目 8 中測量不獨立是一種重要的方法學缺陷。測量獨立是指第一次測量不影響第二次測量,在第二次測量時受試者不應該知道第一次測量的結果。此外,評價者的差異也會引起較大的偏倚。比如,當通過評定者提問的方式進行測量時,假設第一次測量都是由有經驗的評定者進行,而第二次測量是由沒有經驗的評定者(而且不清楚每個受試者對應的評定者)進行,那么此時計算出比較低的 ICC 的原因有 2 種:評定者不同或測量工具確實穩定性不好。研究者很難判斷究竟是哪種原因。因此當使用評定者提問的方式進行測量時,對于評定者應該有明確和具體的要求。在例 1 中,穩定性研究部分未發現其他方法學缺陷,因此該條目被評為“很好”。
以上 8 個條目的最低計分為“模糊”。因此,根據 COSMIN 提出的“最低計分原則”,例 2 的偏倚風險應該被評為“模糊”。
2 評價 PROMs 測量誤差研究的偏倚風險
測量誤差包括系統誤差和隨機誤差,是受試者真實變異(真分數)之外其他變異產生的原因。測量誤差研究的偏倚風險評估清單詳見表 2。

條目 1~3 參見穩定性研究的偏倚風險評價。
條目 4 在經典測量理論(classical test theory,CTT)中,對于定量數據,通過重測計算測量標準誤(standard error of measurement,SEM)是評估測量誤差的首選方法。需要注意,通過 Cronbach's alpha 系數計算 SEM 忽略了因為時間變化引起的變異,因此并不合適[15]。一致性限度(limits of agreement,LoA)和最小可測變化(smallest detectable change,SDC)也可用來反映測量誤差[11],而且這兩個參數都與 SEM 直接相關。LoA 內的變異或小于 SDC 的變異可能是由于測量誤差造成的,LoA 外的變異或大于 SDC 的變異被認為是受試者的真實變異。在例 1 中,研究者采用重測設計計算測量標準誤,因此該條目被評為“很好”。
條目 5 中衡量分類數據/有序數據的測量誤差(也稱為一致性)的合適的統計量是一致性百分比(percentage agreement)[12]。在例 1 中,測量工具的結果是定量數據,因此該條目被評為“不適用”。
以上 5 個條目的最低計分為“模糊”,因此,根據 COSMIN 提出的最低計分原則,“青少年生命質量量表”測量誤差研究的偏倚風險應該被評為“模糊”。
3 評價 PROMs 效標效度研究的偏倚風險
效標效度是指 PROMs 測得結果對“金標準”的充分反映程度。在制作系統評價的過程中,評價者應該明確什么是所測構念的“金標準”。所有將測量工具與“金標準”進行比較的研究都可被認為是在進行效標效度研究。效標效度研究的偏倚風險評估清單詳見表 3。

條目 1 和條目 2 中當測量工具與“金標準”的測量結果均是定量數據時,首選統計方法是計算相關系數;當測量工具的結果是定量數據,“金標準”的測量結果是二分類數據時,首選的統計量是受試者工作特征曲線下的面積(area under the receiver operating curve,AUC);當兩種結果都是二分類數據時,首選方法是計算敏感性和特異性。在例 2 中,“少年精神病態特質量表中文版”和其“金標準”的“明尼蘇達多項人格測驗精神病態分量表”結果均為定量數據,研究者通過計算相關性判斷測量工具對“金標準”的充分反映程度,因此,條目 1 被評為“很好”,條目 2 被評為“不適用”。
條目 3 中當將一個測量工具和其對應的簡化版(簡化條目數后的版本)進行比較時,簡化版的結果使用的是原版獲得的數據,那么該條目應該被評為“不良”。在例 2 中,效標效度研究部分未見其他重要的方法學缺陷,因此條目 3 被評為“很好”。以上 3 個條目的最低計分為“很好”,因此,根據 COSMIN 提出的“最低計分原則”,例 2 的效標效度研究的偏倚風險應該被評為“很好”。
4 討論
本文選擇了 2 個醫學領域的 PROMs 作為案例,評估了其穩定性研究、測量誤差研究和效標效度研究的偏倚風險。其結果顯示,“青少年生命質量量表”的穩定性研究和測量誤差研究的偏倚風險均為“模糊”。“少年精神病態特質量表中文版”的效標效度研究的偏倚風險為“很好”。引起偏倚風險的主要原因是:在“青少年生命質量量表”穩定性研究和測量誤差研究中,研究者沒有提供明確證據證明受試者的生活質量是穩定的,測量的間隔期也不是非常合適。因此,我們建議研究者在進行研究設計和統計分析時應該注意這些問題。
COSMIN-RoB 清單中,穩定性、測量誤差和效標效度這 3 個模塊內容非常具體,即使評價者不是 PROMs 開發和測量屬性方面的專家,也可很好的使用該工具指導測量屬性研究偏倚風險的評價,但是這 3 個部分的評價清單仍然有一些不足。比如在穩定性研究的偏倚風險清單中條目 1 規定:評價為“很好”的標準是“有證據支持受試者的待測構念是穩定的”,但是并沒有清晰的界定證據的內涵或者指出衡量的方法,評價者的主觀判斷可能會影響評價結果。其次,對于測量間隔期的界定也是采用經驗法則,在不同的情況下,測量間隔期的要求可能是不同的。再比如,每個框目都有 1 個問題詢問是否存在其他方法學缺陷,但是缺少對于其他方法學缺陷的具體介紹,這些都可能會影響評價的結果。因此,今后還可進一步改進該清單。對于以上問題,建議評價者使用該清單時,在小組內事先界定可能存在的其他方法學缺陷,并達成共識。另外,雙人獨立評價也可減少由于評價者的主觀偏見造成的偏倚。
COSMIN-RoB 清單中,穩定性、測量誤差和效標效度研究部分的評價清單內容具體,評價簡便,適合用于 PROMs 測量屬性研究的偏倚風險評價,建議研究者使用該工具對相關測量工具的測量屬性研究進行評價。同時,對于 PROMs 的開發者而言,也建議使用該工具核查研究設計和統計方法,以減少偏倚風險。
患者報告結局測量工具(patient reported outcome measures,PROMs)是一種患者通過自己的認知和判斷對自我健康狀況進行評估與審查的工具(如癌癥患者生活質量測量工具),在醫學研究中具有非常重要的意義[1]。COSMIN(consensus-based standards for the selection of health measurement instruments)指導委員會開發了 COSMIN-RoB 清單(COSMIN risk of bias checklist)用以評估 PROMs 測量屬性研究的偏倚風險[2]。COSMIN 指導委員會將偏倚風險清單分為 3 個部分,共 10 個獨立模塊,分別評價內容效度研究、內部結構研究和其它測量屬性研究的偏倚風險[3]。其中,其他測量屬性研究關注 PROMs 整體的質量,包含穩定性、測量誤差、效標效度、假設檢驗和反應度。在這 5 種測量屬性中,穩定性、測量誤差及效標效度在研究中應用最為廣泛,因此,為使讀者更好地理解和使用該工具評價這 3 種 PROMs 測量屬性研究的偏倚風險,本文將以“青少年生命質量量表(YQOL-R)的漢化研究”[4](例 1)、“少年精神病態特質量表中文版的效度和信度”[5](例 2)進行解讀。
1 評價 PROMs 穩定性研究的偏倚風險
穩定性(reliability)指對同一受試者采用同樣的方法重復測量時所得結果的一致性程度,包含:①重測信度:在不同的時間進行測量;②評定者間信度:由不同評定者在同一場合進行測量;③ 評定者(或受試者)內信度:同一個評定者(或受試者)在不同場合進行測量(或被測量)[1, 6]。穩定性研究的偏倚風險評價清單詳見表 1。

條目 1 中受試者的所測構念在兩次測量之間應該保持穩定。研究者應該結合目標人群的特點判斷所測構念是否穩定。例如,當效驗“癌癥患者生活質量測量工具”的穩定性時,若患者病情控制良好(可提供證據證明,比如可收集患者疾病進展情況的信息),則可認為受試者的生活質量在測量間隔期是穩定的,那么,條目 1 可評為“很好”。如果患者在測量間隔期接受了干預,那么可認為受試者的生活質量發生了變化,此時,COSMIN 建議將該條目評為“不良”。在例 1 中,研究者“采取隨機函數法在完成量表的城市、農村、隨遷學生樣本中分別抽取 30 例,共 90 例,在基線調查結束后的 7~10 天內進行重測”。雖然研究者沒有給出明確證據證明受試者的生命質量是穩定的,但是通過隨機抽取的方法,可盡量避免其他因素對于受試者生活質量的影響,而且時間間隔只有 7~10 天,因此可認為受試者的生活質量是穩定的,所以該條目被評為“良好”。
條目 2 中效驗重測信度時,兩次測量時間間隔必須適當。首先,時間間隔應足夠長,目的是為了防止回憶偏倚;同時,時間間隔也應該足夠短,目的是確保患者的所測構念保持穩定。時間間隔是否合適取決于所測量的構念和目標人群的特點。通常認為合適的時間間隔是 2 周左右。在例 1 中,研究者選擇的重測時間是 7~10 天,略短于一般要求的 2 周。雖然受試者是青少年人群,可能與成年人群存在差異,但是研究者沒有給出選擇 7~10 天的理由,因此,該條目被評為“模糊”。
條目 3 中重復測量時的情境應該類似。測量情境指的是測量方式(如自填或他填)、測量環境(如在醫院或家中)及填寫指導和說明。不同的測量情境可能會影響測量結果。如果測量情境不相似,就有可能低估測量工具的穩定性。但是,也有一類研究會選擇性使用不同的測量情境,其目的通常是評估測量工具在不同測量情境下的穩定性,比如 Van Leeuwen 等[7]的研究,在這種情況下,該條目可評為“很好”。在例 1 中,研究者描述其將調查“安排在課余或午休時間”、“在單獨的會議室或報告廳進行”,采用“自評式量表調查方式,宣讀調查引導語后開始調查”。雖然,研究者未具體描述重測時是否也是同樣的情境,但是考慮到受試對象是學生,其可被調查的時間和地點應該是相對穩定的,因此可認為兩次重測時情境相似,所以該條目被評為“良好”。
條目 4 中對于定量數據,首選的穩定性統計量是組內相關系數(intraclass correlation coefficient,ICC)[8, 9]。重測設計是評估測量工具穩定性最直接的方法。該方法首選的 ICC 模型是雙向隨機效應模型[10],因為該模型既考慮了受試者內部的變異,也考慮了時間變化引起的變異(即系統變異)[11]。Pearson 或 Spearman 相關系數沒有考慮系統變異,因此如果在不清楚是否存在系統變異的情況下使用 Pearson 或 Spearman 相關系數,該條目應該被評為“模糊”。在例 1 中,量表產生的結果是“定量數據”,研究者使用了 ICC 作為統計學指標是合適的,因此該條目被評為“很好”。
條目 5、6 和 7 中對于分類數據,Cohen's Kappa 系數是首選的統計量[8]。對于有序數據,加權 Kappa 系數[9, 12, 13]是首選的統計量。在使用加權 Kappa 系數時應該說明加權方案(例如,線性加權或平方加權)[11, 14]。在例 1 中,量表產生的結果是“定量數據”,所以條目 5、6 和 7 被評為“不適用”。
條目 8 中測量不獨立是一種重要的方法學缺陷。測量獨立是指第一次測量不影響第二次測量,在第二次測量時受試者不應該知道第一次測量的結果。此外,評價者的差異也會引起較大的偏倚。比如,當通過評定者提問的方式進行測量時,假設第一次測量都是由有經驗的評定者進行,而第二次測量是由沒有經驗的評定者(而且不清楚每個受試者對應的評定者)進行,那么此時計算出比較低的 ICC 的原因有 2 種:評定者不同或測量工具確實穩定性不好。研究者很難判斷究竟是哪種原因。因此當使用評定者提問的方式進行測量時,對于評定者應該有明確和具體的要求。在例 1 中,穩定性研究部分未發現其他方法學缺陷,因此該條目被評為“很好”。
以上 8 個條目的最低計分為“模糊”。因此,根據 COSMIN 提出的“最低計分原則”,例 2 的偏倚風險應該被評為“模糊”。
2 評價 PROMs 測量誤差研究的偏倚風險
測量誤差包括系統誤差和隨機誤差,是受試者真實變異(真分數)之外其他變異產生的原因。測量誤差研究的偏倚風險評估清單詳見表 2。

條目 1~3 參見穩定性研究的偏倚風險評價。
條目 4 在經典測量理論(classical test theory,CTT)中,對于定量數據,通過重測計算測量標準誤(standard error of measurement,SEM)是評估測量誤差的首選方法。需要注意,通過 Cronbach's alpha 系數計算 SEM 忽略了因為時間變化引起的變異,因此并不合適[15]。一致性限度(limits of agreement,LoA)和最小可測變化(smallest detectable change,SDC)也可用來反映測量誤差[11],而且這兩個參數都與 SEM 直接相關。LoA 內的變異或小于 SDC 的變異可能是由于測量誤差造成的,LoA 外的變異或大于 SDC 的變異被認為是受試者的真實變異。在例 1 中,研究者采用重測設計計算測量標準誤,因此該條目被評為“很好”。
條目 5 中衡量分類數據/有序數據的測量誤差(也稱為一致性)的合適的統計量是一致性百分比(percentage agreement)[12]。在例 1 中,測量工具的結果是定量數據,因此該條目被評為“不適用”。
以上 5 個條目的最低計分為“模糊”,因此,根據 COSMIN 提出的最低計分原則,“青少年生命質量量表”測量誤差研究的偏倚風險應該被評為“模糊”。
3 評價 PROMs 效標效度研究的偏倚風險
效標效度是指 PROMs 測得結果對“金標準”的充分反映程度。在制作系統評價的過程中,評價者應該明確什么是所測構念的“金標準”。所有將測量工具與“金標準”進行比較的研究都可被認為是在進行效標效度研究。效標效度研究的偏倚風險評估清單詳見表 3。

條目 1 和條目 2 中當測量工具與“金標準”的測量結果均是定量數據時,首選統計方法是計算相關系數;當測量工具的結果是定量數據,“金標準”的測量結果是二分類數據時,首選的統計量是受試者工作特征曲線下的面積(area under the receiver operating curve,AUC);當兩種結果都是二分類數據時,首選方法是計算敏感性和特異性。在例 2 中,“少年精神病態特質量表中文版”和其“金標準”的“明尼蘇達多項人格測驗精神病態分量表”結果均為定量數據,研究者通過計算相關性判斷測量工具對“金標準”的充分反映程度,因此,條目 1 被評為“很好”,條目 2 被評為“不適用”。
條目 3 中當將一個測量工具和其對應的簡化版(簡化條目數后的版本)進行比較時,簡化版的結果使用的是原版獲得的數據,那么該條目應該被評為“不良”。在例 2 中,效標效度研究部分未見其他重要的方法學缺陷,因此條目 3 被評為“很好”。以上 3 個條目的最低計分為“很好”,因此,根據 COSMIN 提出的“最低計分原則”,例 2 的效標效度研究的偏倚風險應該被評為“很好”。
4 討論
本文選擇了 2 個醫學領域的 PROMs 作為案例,評估了其穩定性研究、測量誤差研究和效標效度研究的偏倚風險。其結果顯示,“青少年生命質量量表”的穩定性研究和測量誤差研究的偏倚風險均為“模糊”。“少年精神病態特質量表中文版”的效標效度研究的偏倚風險為“很好”。引起偏倚風險的主要原因是:在“青少年生命質量量表”穩定性研究和測量誤差研究中,研究者沒有提供明確證據證明受試者的生活質量是穩定的,測量的間隔期也不是非常合適。因此,我們建議研究者在進行研究設計和統計分析時應該注意這些問題。
COSMIN-RoB 清單中,穩定性、測量誤差和效標效度這 3 個模塊內容非常具體,即使評價者不是 PROMs 開發和測量屬性方面的專家,也可很好的使用該工具指導測量屬性研究偏倚風險的評價,但是這 3 個部分的評價清單仍然有一些不足。比如在穩定性研究的偏倚風險清單中條目 1 規定:評價為“很好”的標準是“有證據支持受試者的待測構念是穩定的”,但是并沒有清晰的界定證據的內涵或者指出衡量的方法,評價者的主觀判斷可能會影響評價結果。其次,對于測量間隔期的界定也是采用經驗法則,在不同的情況下,測量間隔期的要求可能是不同的。再比如,每個框目都有 1 個問題詢問是否存在其他方法學缺陷,但是缺少對于其他方法學缺陷的具體介紹,這些都可能會影響評價的結果。因此,今后還可進一步改進該清單。對于以上問題,建議評價者使用該清單時,在小組內事先界定可能存在的其他方法學缺陷,并達成共識。另外,雙人獨立評價也可減少由于評價者的主觀偏見造成的偏倚。
COSMIN-RoB 清單中,穩定性、測量誤差和效標效度研究部分的評價清單內容具體,評價簡便,適合用于 PROMs 測量屬性研究的偏倚風險評價,建議研究者使用該工具對相關測量工具的測量屬性研究進行評價。同時,對于 PROMs 的開發者而言,也建議使用該工具核查研究設計和統計方法,以減少偏倚風險。