COSMIN指導委員會在2021年對COSMIN-RoB穩定性和測量誤差的清單進行了更新,更新清單適用于包括臨床醫生報告的結局測量方法(ClinPOMs)、基于患者表現的結局測量工具(PerFOMs)及實驗室檢查指標等在內的所有類型結局測量工具研究的評估。為使讀者更好地理解和使用更新的COSMIN-RoB清單,并為制作ClinPOMs、PerFOMs及實驗室檢查指標系統評價提供方法學參考,本文對COSMIN-RoB清單的更新內容進行解讀。
引用本文: 韓舒羽, 楊憲暇, 張宜竹, 李珂, 王志穩. COSMIN-RoB清單中穩定性和測量誤差偏倚風險清單更新內容解讀. 中國循證醫學雜志, 2022, 22(10): 1212-1218. doi: 10.7507/1672-2531.202205110 復制
COSMIN(consensus-based standards for the selection of health measurement instruments)指導委員會于2018年開發了COSMIN-RoB清單(COSMIN risk of bias checklist)用以評估結局指標測量工具研究的偏倚風險[1-2]。然而,該清單僅適用于評估患者報告結局測量工具(patient reported outcome measures,PROMs)和觀察者報告結局測量工具(observer-reported outcome measures,ObsROMs)的相關研究[3]。為讓COSMIN清單有更大的適用范圍,COSMIN指導委員會在2021年對COSMIN-RoB清單進行了更新[3]。更新的COSMIN-RoB清單為針對臨床醫生報告的結局測量方法(clinician-reported outcome measures,ClinPOMs)(如基于成像模式的讀數和基于觀察的評分等)、基于患者表現的結局測量工具(performance-based outcome measurement instruments,PerFOMs)及生物標記物(也稱為實驗室檢查指標)等多種結局測量工具的擴展版本[4-5]。這些結局測量工具通常需要一名或多名專業人員參與操作設備或工具,向患者發出指令(如完成一項任務或行動),或者基于他們的臨床專業知識打分(如觀察一名患者或一張圖片后)。結局測量工具是評價得出分數的整個測量過程,包括材料、溝通(如在基于患者表現測試中對患者進行指導和激勵)、臨床判斷、執行任務等問題。由于測量過程不僅只有患者的參與,因此這些類型結局的測量方法往往比PROMs更加復雜。更新的COSMIN-RoB清單(以下簡稱清單)可用于評估所有類型結局測量工具穩定性和測量誤差的偏倚風險。本文對清單內容進行了解讀。
1 清單內容
清單包括兩部分:第一部分是構成綜合研究問題的能幫助識別結局測量工具穩定性和測量誤差的7個要素,這7個要素有助于研究者理解如何在已發表的研究結果中定位和判斷結局測量工具穩定性和測量誤差的相關內容。第二部分是用于評估研究質量,包括穩定性和測量誤差研究設計要求和首選統計方法的標準,該標準幫助研究者判斷是否可通過評估研究的偏倚風險來信任研究中獲得的結果[6]。
1.1 如何在研究中定位和判斷結局測量工具穩定性和測量誤差的相關內容
1.1.1 結局指標測量工具的成分
一般來說,穩定性和測量誤差的研究設計是在固定患者中進行重復測量,每次測量都會伴隨一些誤差。這些誤差是由一些變異來源導致的,如測量中使用設備、參與測量的專業人員及測量工具的其他成分。COSMIN工作組系統描述了結局測量工具的所有成分,這些成分構成結局測量工具變異的潛在來源。表1展示了不包括生物學取樣(即ClinPOMs和PerFOMs)結局測量工具的成分,表2展示了生物學取樣(即實驗室檢查指標,如血液檢查、尿液檢查、組織活檢等)結局測量的成分。


1.1.2 提取綜合研究問題的要素
在全面評估工具穩定性和測量誤差研究的信息之前,需要充分理解研究設計并將研究問題重新表述為“綜合研究問題”。通常文獻中表述的研究問題不夠具體,無法直接用來評價研究設計的充分性。例如,文章中描述的研究目的之一是評估評定者間信度,那么很明顯研究會納入不同的評分者。然而,如果沒有進一步的信息就不清楚評定者間信度評價的是整個測量過程(如不同的臨床醫生)還是僅是測量過程部分環節的信度(如僅是基于圖片的分數分配等)。為對研究問題有一個全面的認識,COSMIN建議從文獻中提取共同構成“綜合研究問題”的7個要素(表3)。當一篇文獻包含多個研究問題時,每個問題都需要提取7個要素。

1.2 評估穩定性和測量誤差研究的偏倚風險
表4和表5分別展示了穩定性和測量誤差偏倚風險評估的更新條目。其中條目1~5是研究設計的標準,并且穩定性和測量誤差兩個框目是相同的(因相同的研究設計可用于評估兩種測量屬性)。兩個框目的條目6均是詢問是否存在其他重要的方法學缺陷。此外,穩定性框目還有與統計方法相關的3個條目,測量誤差還有與統計方法相關的2個條目。更新條目的計分規則與COSMIN方法學中的RoB清單初始版本[7]一致,每個條目均有“非常好”、“合格”、“有問題的”、“不合格”和“不適用”五個選項,整個框目遵循“最低計分原則”。由于國內已有研究者對COSMIN-RoB清單初始版本進行了解讀[8],本文重點解讀與ClinPOMs、PerFOMs及實驗室檢查指標等結局測量方法特異性相關條目及更新條目的內涵。


1.2.1 穩定性偏倚風險評估條目
條目1:在重復測量間隔期間患者的待測構念是否穩定?當目的是評估分數分配的穩定性時,如使用靜態圖像或完成任務的錄像作為研究對象時,由于圖像和視頻僅獲取一次,這種情況下該條目應評為“不適用”。對于可能影響患者穩定性的測量方式,在重復測量時應有足夠的時間讓患者從經歷的疼痛或疲勞中恢復過來使其回到初始狀態,否則條目將被評為“有問題的”。
條目2:重復測量的時間間隔是否合適?合適的時間間隔既要足夠長,以避免回憶偏倚;又要足夠短,以確保患者的所測構念保持穩定。對于ClinPOMs、PerFOMs及實驗室檢查指標,不同情境下合適的重復測量間隔時間可能差別很大(不一定局限于PROMs和ObsROMs常見的2周左右),例如滑膜炎可能會在幾天內發生變化,而軟骨和骨骼的變化則需要幾個月的時間。
條目3:除要評估的變異來源,重復測量的測量條件是否相似?對于PerFOMs,當患者很可能表現出學習效果時,由于第一次測量可被認為是熟悉課程,并且測量條件是不一致的。因此當缺少熟悉課程時該條目應被評為“有問題的”或“不合格”。
條目4:專業人員是否在不知曉同一患者其他重復測量的分數或數值的情況下進行測量?所有測量均應由專業人員在不知曉患者其他重復測量的分數或數值的情況下進行測量。該條目的判斷比較主觀,例如,當評分者獨立執行測量,并且他們沒有參與到患者的治療和照護(可判斷評分者不可能接收到患者得分的額外信息)時,可評為“非常好”。若評分者通過成像技術獲得較嚴重的評分,重復測量的過程可能就會執行地更小心謹慎,用在患者上的測量時間也可能更長,這種情況則被評為“不合格”。若文獻中對該問題沒有明確的描述,但研究者判斷評分者很可能不知曉重復測量的分數或數值,則可評為“合格”或“有問題的”。而當執行測量的環節(如收集原始數據或生物樣本,或數據或樣本的處理和存儲)不可重復,僅分數分配或確定數值的環節可重復時,該條目則被評為“不適用”。
條目5:專業人員是否在不知曉同一患者其他重復測量的分數或數值的情況下分配分數或確定數值?分數分配或數值確定應由專業人員在不知曉患者其他重復測量的分數或數值的情況下進行。一些需要人為確定數值的情況如尿液的PH值測試需要專業人員基于試紙顏色判斷酸堿度等。
條目6:研究設計或統計方法是否存在其他嚴重的缺陷?該條目主要判斷框目中其他條目以外的方法學缺陷。例如通過ClinPOMs收集患者結局指標時,如果患者的主治醫生參與了結局指標數據的收集,那么他們可能就比其他參與評估的專業人員知曉患者更多的信息,從而導致評估分數的差異。由于測量專業人員的差異可能會影響結局指標的評估結果,在一些研究情境下就可能成為重要的方法學缺陷。
條目7:對于連續性數據:是否計算了組內相關系數(intraclass correlation coefficient,ICC)?對于連續性數據,ICC是首選的統計參數,包括G系數(generalizability coefficients)和D系數(decision coefficients)。在穩定性研究中,構建ICC需與研究設計和研究目的匹配,研究者可通過將第一階段提取的信息與研究設計進行比較后確定。基于雙向混合效應一致性模型的ICC和Pearson/Spearman相關系數沒有考慮重復測量之間的系統差異,可能會高估穩定性,因此,基于所考慮變異來源系統差異的信息(如評分者),該條目可被評為“合格”(當沒有或很少發生系統差異時)或“有問題的”(當有系統差異存在時)。當研究旨在調查特定的變異來源,并且在公式中考慮了變異來源在重復測量中的系統差異時,該條目可被評為“非常好”。當沒有考慮任何特定變異來源時,合適的ICC模型是單項隨機效應模型,這種情況被評為“非常好”,否則被評為“合格”。ICC計算可針對單次測量或平均測量,當文章中僅報告了平均測量的ICC而通常情況應報告單次測量時,由于模型沒有完美匹配研究設計,此時該條目應被評為“合格”;同時建議條目6評為“有問題的”甚至是“不合格”。此外,ICC模型或公式也應與數據匹配,若數據是否呈正態分布沒有被充分考慮,此時不應被評為“非常好”而應被評為“合格”。
條目8:對于有序分數:是否計算了(加權)Kappa系數?Cohen’s Kappa是評估有序分數穩定性的首選統計參數。如果研究的目標將任何錯誤分類視為同等重要,并且說明了采用未加權Kappa系數,此時該條目被評為“非常好”。而其他情況應用加權Kappa系數更合適,此時若采用未加權Kappa系數,條目應被評為“合格”。
條目9:對于二分類/名義分數:每個類別的Kappa系數計算是否與其他類別相結合?當每個類別的未加權Kappa系數均計算時,該條目被評為“非常好”。
1.2.2 測量誤差偏倚風險評估條目
條目1~6參見穩定性研究的偏倚風險評估條目。
條目7:對于連續性數據:是否計算了測量標準誤(standard error of measurement,SEM)、最小可測變化值(smallest detectable change,SDC)、一致性限度(limits of agreement,LoA)或者變異系數(coefficient of variation,CV)?連續分數單個分數測量誤差的首選測量是SEM,LoA或CV;SDC是衡量分數變化的首選。其中CV通常用于表示設備的測量誤差,在開發新設備時,通過多次測量固定樣本來評估測量誤差。在測量誤差研究中,模型需與研究設計和研究目的匹配,研究者可通過將第一階段提取的信息與研究設計進行比較確定。
條目8:對于二分類/名義/有序分數:是否計算了特定百分比一致性?(如陽性和陰性)二分類/名義/有序分數測量誤差的合適參數是特定百分比一致性。它是一種分別表示分數每個類別的一致性度量,如二分類數據陽性和陰性百分比一致性等。
2 ClinPOMs、PerFOMs及實驗室檢查指標系統評價的更新步驟
PROMs系統評價包括10個步驟,而ClinPOMs、PerFOMs及實驗室檢查指標系統評價在此基礎上新增了1個步驟,尤其是在對穩定性和測量屬性的評估上(表6)。具體變化體現在:將原來步驟8(評估可解釋性和可行性)刪除,因可解釋性和可行性是直接提取或總結而不是評估獲得的。在更新中新增了步驟5:提取納入測量工具特征的數據及可解釋性和可行性的信息。另外,將原先的步驟7拆分成2個步驟,將其中的穩定性和測量屬性分離出來劃分為一個單獨的步驟,在進行偏倚風險評估、測量屬性質量評價、運用GRADE系統形成推薦等級之前首先確定如何基于研究結果判斷工具的質量(對應提取綜合研究問題要素的內容)。其他步驟的內容解讀可參考陳祎婷等的文章研究[9]。

3 討論
結局指標測評工具系統評價是近年來興起并快速發展的一種新型系統評價,其基于COSMIN方法學,針對某一測量變量相關測評工具進行系統檢索和綜合評價,比較各測評工具間的測量學屬性,為研究者就某個測量變量選擇最佳測評工具提供證據和依據[7]。2018版COSMIN清單僅適用于制作PROMs系統評價,但不太適用于ClinPOMs、PerFOMs及實驗室檢查指標等結局測量工具相關研究。局限性主要體現在穩定性和測量誤差兩個方面,PROMs的穩定性研究或測量誤差研究通常關注臨床實踐中PROM的質量(使用單項隨機效應模型進行分析)或者重復測量信度(使用雙向隨機效應模型)。然而,其他類型測量工具其穩定性研究的關注點則更加多樣,包括了很多潛在變異來源。2021年更新清單打破了結局測量方法的限制,為制作更多類型結局測量方法的系統評價打下了基礎。
根據COSMIN-RoB清單的更新內容,研究者要注意,相比于PROMs系統評價,ClinPOMs、PerFOMs及實驗室檢查指標的系統評價在兩個方面存在不同:一是建議使用更新的穩定性和測量誤差偏倚風險評估工具(包括提取綜合研究問題的7要素及RoB清單的更新條目),二是需要遵循新版的系統評價制作的11個步驟。另外,更新清單針對ClinPOMs、PerFOMs及實驗室檢查指標等結局測量方法,在開展這些類型結局指標測量工具系統評價時需要替換原清單中穩定性和測量誤差偏倚風險評估的模塊(即框目6和框目7)。而對于PROMs和ObsROMs,雖也可使用更新清單,但并不是必須要求。因為更新清單會使PROMs和ObsROMs的穩定性和測量誤差偏倚風險評估復雜化,研究者可根據自己偏好選擇。
目前國內應用COSMIN方法學制作結局指標測評工具系統評價的相關研究還相對較少,通過解讀COSMIN-RoB清單的更新內容可以讓國內研究者更多了解COSMIN方法學及其內容的更新,幫助研究者根據研究目的正確選擇制作結局測量工具系統評價的方法,規范系統制作流程,提高結局指標測評工具系統評價研究的質量。另外,COSMIN-RoB清單相關的知識體系也能為研究者進行開發、發展和評價結局指標測評工具原始研究以提示和參考。尤其更新清單打破了PROMs心理測量學的限制,為服務臨床醫學、檢驗學、影像學等領域測量學研究打下了基礎。
COSMIN(consensus-based standards for the selection of health measurement instruments)指導委員會于2018年開發了COSMIN-RoB清單(COSMIN risk of bias checklist)用以評估結局指標測量工具研究的偏倚風險[1-2]。然而,該清單僅適用于評估患者報告結局測量工具(patient reported outcome measures,PROMs)和觀察者報告結局測量工具(observer-reported outcome measures,ObsROMs)的相關研究[3]。為讓COSMIN清單有更大的適用范圍,COSMIN指導委員會在2021年對COSMIN-RoB清單進行了更新[3]。更新的COSMIN-RoB清單為針對臨床醫生報告的結局測量方法(clinician-reported outcome measures,ClinPOMs)(如基于成像模式的讀數和基于觀察的評分等)、基于患者表現的結局測量工具(performance-based outcome measurement instruments,PerFOMs)及生物標記物(也稱為實驗室檢查指標)等多種結局測量工具的擴展版本[4-5]。這些結局測量工具通常需要一名或多名專業人員參與操作設備或工具,向患者發出指令(如完成一項任務或行動),或者基于他們的臨床專業知識打分(如觀察一名患者或一張圖片后)。結局測量工具是評價得出分數的整個測量過程,包括材料、溝通(如在基于患者表現測試中對患者進行指導和激勵)、臨床判斷、執行任務等問題。由于測量過程不僅只有患者的參與,因此這些類型結局的測量方法往往比PROMs更加復雜。更新的COSMIN-RoB清單(以下簡稱清單)可用于評估所有類型結局測量工具穩定性和測量誤差的偏倚風險。本文對清單內容進行了解讀。
1 清單內容
清單包括兩部分:第一部分是構成綜合研究問題的能幫助識別結局測量工具穩定性和測量誤差的7個要素,這7個要素有助于研究者理解如何在已發表的研究結果中定位和判斷結局測量工具穩定性和測量誤差的相關內容。第二部分是用于評估研究質量,包括穩定性和測量誤差研究設計要求和首選統計方法的標準,該標準幫助研究者判斷是否可通過評估研究的偏倚風險來信任研究中獲得的結果[6]。
1.1 如何在研究中定位和判斷結局測量工具穩定性和測量誤差的相關內容
1.1.1 結局指標測量工具的成分
一般來說,穩定性和測量誤差的研究設計是在固定患者中進行重復測量,每次測量都會伴隨一些誤差。這些誤差是由一些變異來源導致的,如測量中使用設備、參與測量的專業人員及測量工具的其他成分。COSMIN工作組系統描述了結局測量工具的所有成分,這些成分構成結局測量工具變異的潛在來源。表1展示了不包括生物學取樣(即ClinPOMs和PerFOMs)結局測量工具的成分,表2展示了生物學取樣(即實驗室檢查指標,如血液檢查、尿液檢查、組織活檢等)結局測量的成分。


1.1.2 提取綜合研究問題的要素
在全面評估工具穩定性和測量誤差研究的信息之前,需要充分理解研究設計并將研究問題重新表述為“綜合研究問題”。通常文獻中表述的研究問題不夠具體,無法直接用來評價研究設計的充分性。例如,文章中描述的研究目的之一是評估評定者間信度,那么很明顯研究會納入不同的評分者。然而,如果沒有進一步的信息就不清楚評定者間信度評價的是整個測量過程(如不同的臨床醫生)還是僅是測量過程部分環節的信度(如僅是基于圖片的分數分配等)。為對研究問題有一個全面的認識,COSMIN建議從文獻中提取共同構成“綜合研究問題”的7個要素(表3)。當一篇文獻包含多個研究問題時,每個問題都需要提取7個要素。

1.2 評估穩定性和測量誤差研究的偏倚風險
表4和表5分別展示了穩定性和測量誤差偏倚風險評估的更新條目。其中條目1~5是研究設計的標準,并且穩定性和測量誤差兩個框目是相同的(因相同的研究設計可用于評估兩種測量屬性)。兩個框目的條目6均是詢問是否存在其他重要的方法學缺陷。此外,穩定性框目還有與統計方法相關的3個條目,測量誤差還有與統計方法相關的2個條目。更新條目的計分規則與COSMIN方法學中的RoB清單初始版本[7]一致,每個條目均有“非常好”、“合格”、“有問題的”、“不合格”和“不適用”五個選項,整個框目遵循“最低計分原則”。由于國內已有研究者對COSMIN-RoB清單初始版本進行了解讀[8],本文重點解讀與ClinPOMs、PerFOMs及實驗室檢查指標等結局測量方法特異性相關條目及更新條目的內涵。


1.2.1 穩定性偏倚風險評估條目
條目1:在重復測量間隔期間患者的待測構念是否穩定?當目的是評估分數分配的穩定性時,如使用靜態圖像或完成任務的錄像作為研究對象時,由于圖像和視頻僅獲取一次,這種情況下該條目應評為“不適用”。對于可能影響患者穩定性的測量方式,在重復測量時應有足夠的時間讓患者從經歷的疼痛或疲勞中恢復過來使其回到初始狀態,否則條目將被評為“有問題的”。
條目2:重復測量的時間間隔是否合適?合適的時間間隔既要足夠長,以避免回憶偏倚;又要足夠短,以確保患者的所測構念保持穩定。對于ClinPOMs、PerFOMs及實驗室檢查指標,不同情境下合適的重復測量間隔時間可能差別很大(不一定局限于PROMs和ObsROMs常見的2周左右),例如滑膜炎可能會在幾天內發生變化,而軟骨和骨骼的變化則需要幾個月的時間。
條目3:除要評估的變異來源,重復測量的測量條件是否相似?對于PerFOMs,當患者很可能表現出學習效果時,由于第一次測量可被認為是熟悉課程,并且測量條件是不一致的。因此當缺少熟悉課程時該條目應被評為“有問題的”或“不合格”。
條目4:專業人員是否在不知曉同一患者其他重復測量的分數或數值的情況下進行測量?所有測量均應由專業人員在不知曉患者其他重復測量的分數或數值的情況下進行測量。該條目的判斷比較主觀,例如,當評分者獨立執行測量,并且他們沒有參與到患者的治療和照護(可判斷評分者不可能接收到患者得分的額外信息)時,可評為“非常好”。若評分者通過成像技術獲得較嚴重的評分,重復測量的過程可能就會執行地更小心謹慎,用在患者上的測量時間也可能更長,這種情況則被評為“不合格”。若文獻中對該問題沒有明確的描述,但研究者判斷評分者很可能不知曉重復測量的分數或數值,則可評為“合格”或“有問題的”。而當執行測量的環節(如收集原始數據或生物樣本,或數據或樣本的處理和存儲)不可重復,僅分數分配或確定數值的環節可重復時,該條目則被評為“不適用”。
條目5:專業人員是否在不知曉同一患者其他重復測量的分數或數值的情況下分配分數或確定數值?分數分配或數值確定應由專業人員在不知曉患者其他重復測量的分數或數值的情況下進行。一些需要人為確定數值的情況如尿液的PH值測試需要專業人員基于試紙顏色判斷酸堿度等。
條目6:研究設計或統計方法是否存在其他嚴重的缺陷?該條目主要判斷框目中其他條目以外的方法學缺陷。例如通過ClinPOMs收集患者結局指標時,如果患者的主治醫生參與了結局指標數據的收集,那么他們可能就比其他參與評估的專業人員知曉患者更多的信息,從而導致評估分數的差異。由于測量專業人員的差異可能會影響結局指標的評估結果,在一些研究情境下就可能成為重要的方法學缺陷。
條目7:對于連續性數據:是否計算了組內相關系數(intraclass correlation coefficient,ICC)?對于連續性數據,ICC是首選的統計參數,包括G系數(generalizability coefficients)和D系數(decision coefficients)。在穩定性研究中,構建ICC需與研究設計和研究目的匹配,研究者可通過將第一階段提取的信息與研究設計進行比較后確定。基于雙向混合效應一致性模型的ICC和Pearson/Spearman相關系數沒有考慮重復測量之間的系統差異,可能會高估穩定性,因此,基于所考慮變異來源系統差異的信息(如評分者),該條目可被評為“合格”(當沒有或很少發生系統差異時)或“有問題的”(當有系統差異存在時)。當研究旨在調查特定的變異來源,并且在公式中考慮了變異來源在重復測量中的系統差異時,該條目可被評為“非常好”。當沒有考慮任何特定變異來源時,合適的ICC模型是單項隨機效應模型,這種情況被評為“非常好”,否則被評為“合格”。ICC計算可針對單次測量或平均測量,當文章中僅報告了平均測量的ICC而通常情況應報告單次測量時,由于模型沒有完美匹配研究設計,此時該條目應被評為“合格”;同時建議條目6評為“有問題的”甚至是“不合格”。此外,ICC模型或公式也應與數據匹配,若數據是否呈正態分布沒有被充分考慮,此時不應被評為“非常好”而應被評為“合格”。
條目8:對于有序分數:是否計算了(加權)Kappa系數?Cohen’s Kappa是評估有序分數穩定性的首選統計參數。如果研究的目標將任何錯誤分類視為同等重要,并且說明了采用未加權Kappa系數,此時該條目被評為“非常好”。而其他情況應用加權Kappa系數更合適,此時若采用未加權Kappa系數,條目應被評為“合格”。
條目9:對于二分類/名義分數:每個類別的Kappa系數計算是否與其他類別相結合?當每個類別的未加權Kappa系數均計算時,該條目被評為“非常好”。
1.2.2 測量誤差偏倚風險評估條目
條目1~6參見穩定性研究的偏倚風險評估條目。
條目7:對于連續性數據:是否計算了測量標準誤(standard error of measurement,SEM)、最小可測變化值(smallest detectable change,SDC)、一致性限度(limits of agreement,LoA)或者變異系數(coefficient of variation,CV)?連續分數單個分數測量誤差的首選測量是SEM,LoA或CV;SDC是衡量分數變化的首選。其中CV通常用于表示設備的測量誤差,在開發新設備時,通過多次測量固定樣本來評估測量誤差。在測量誤差研究中,模型需與研究設計和研究目的匹配,研究者可通過將第一階段提取的信息與研究設計進行比較確定。
條目8:對于二分類/名義/有序分數:是否計算了特定百分比一致性?(如陽性和陰性)二分類/名義/有序分數測量誤差的合適參數是特定百分比一致性。它是一種分別表示分數每個類別的一致性度量,如二分類數據陽性和陰性百分比一致性等。
2 ClinPOMs、PerFOMs及實驗室檢查指標系統評價的更新步驟
PROMs系統評價包括10個步驟,而ClinPOMs、PerFOMs及實驗室檢查指標系統評價在此基礎上新增了1個步驟,尤其是在對穩定性和測量屬性的評估上(表6)。具體變化體現在:將原來步驟8(評估可解釋性和可行性)刪除,因可解釋性和可行性是直接提取或總結而不是評估獲得的。在更新中新增了步驟5:提取納入測量工具特征的數據及可解釋性和可行性的信息。另外,將原先的步驟7拆分成2個步驟,將其中的穩定性和測量屬性分離出來劃分為一個單獨的步驟,在進行偏倚風險評估、測量屬性質量評價、運用GRADE系統形成推薦等級之前首先確定如何基于研究結果判斷工具的質量(對應提取綜合研究問題要素的內容)。其他步驟的內容解讀可參考陳祎婷等的文章研究[9]。

3 討論
結局指標測評工具系統評價是近年來興起并快速發展的一種新型系統評價,其基于COSMIN方法學,針對某一測量變量相關測評工具進行系統檢索和綜合評價,比較各測評工具間的測量學屬性,為研究者就某個測量變量選擇最佳測評工具提供證據和依據[7]。2018版COSMIN清單僅適用于制作PROMs系統評價,但不太適用于ClinPOMs、PerFOMs及實驗室檢查指標等結局測量工具相關研究。局限性主要體現在穩定性和測量誤差兩個方面,PROMs的穩定性研究或測量誤差研究通常關注臨床實踐中PROM的質量(使用單項隨機效應模型進行分析)或者重復測量信度(使用雙向隨機效應模型)。然而,其他類型測量工具其穩定性研究的關注點則更加多樣,包括了很多潛在變異來源。2021年更新清單打破了結局測量方法的限制,為制作更多類型結局測量方法的系統評價打下了基礎。
根據COSMIN-RoB清單的更新內容,研究者要注意,相比于PROMs系統評價,ClinPOMs、PerFOMs及實驗室檢查指標的系統評價在兩個方面存在不同:一是建議使用更新的穩定性和測量誤差偏倚風險評估工具(包括提取綜合研究問題的7要素及RoB清單的更新條目),二是需要遵循新版的系統評價制作的11個步驟。另外,更新清單針對ClinPOMs、PerFOMs及實驗室檢查指標等結局測量方法,在開展這些類型結局指標測量工具系統評價時需要替換原清單中穩定性和測量誤差偏倚風險評估的模塊(即框目6和框目7)。而對于PROMs和ObsROMs,雖也可使用更新清單,但并不是必須要求。因為更新清單會使PROMs和ObsROMs的穩定性和測量誤差偏倚風險評估復雜化,研究者可根據自己偏好選擇。
目前國內應用COSMIN方法學制作結局指標測評工具系統評價的相關研究還相對較少,通過解讀COSMIN-RoB清單的更新內容可以讓國內研究者更多了解COSMIN方法學及其內容的更新,幫助研究者根據研究目的正確選擇制作結局測量工具系統評價的方法,規范系統制作流程,提高結局指標測評工具系統評價研究的質量。另外,COSMIN-RoB清單相關的知識體系也能為研究者進行開發、發展和評價結局指標測評工具原始研究以提示和參考。尤其更新清單打破了PROMs心理測量學的限制,為服務臨床醫學、檢驗學、影像學等領域測量學研究打下了基礎。