真實世界觀察性研究評估工具(Assessment of Real World Observational Studies,ArRoWS)是由英國萊斯特大學糖尿病研究中心萊斯特真實世界證據工作組研發的用于評估真實世界證據研究質量的工具,具有較好的實用性。ArRoWS能快速和具體地評估使用電子健康記錄信息的真實世界證據研究的質量,ArRoWS共包含16個條目,其中9個條目為通用條目,另外7個條目為與特定研究設計相關的條目。本文就ArRoWS的制訂背景、制訂過程、評價條目、評價標準和使用方法等進行介紹,以期為國內的真實世界研究者提供參考。
引用本文: 曹雪, 孟祥然, 王馨, 孫銘璘, 鄧輝, 艾艷珂, 劉佳. 真實世界觀察性研究的質量評價工具ArRoWS解讀. 中國循證醫學雜志, 2023, 23(2): 227-232. doi: 10.7507/1672-2531.202206043 復制
真實世界數據(real world data,RWD)是指來自真實醫療環境的研究數據,反映實際診療及醫療服務過程和真實條件下的患者健康狀況[1-2],其數據來源主要為基于臨床或管理目的常規收集的健康醫療數據(routinely collected health data,RCD)和基于一定研究目的主動收集的健康醫療數據[3],前者包括醫院電子病歷數據(electronic medical record,EMR)、健康/安全監測數據、醫保數據及其他健康數據等;后者包括傳統流行病學研究的數據[3]。基于RWD開展的真實世界研究,是RWD轉化為真實世界證據(real world evidence,RWE)的重要橋梁[4]。目前RWD和RWE日益得到醫藥衛生行業專家和學者的重視,其主要用途包括以下幾方面[5-8]:① 醫藥產品的評價和衛生政策制定(如中成藥有效性評價、藥械監管和醫保決策);② 疾病臨床研究(如臨床療效、患者預后等);③ 輔助管理和臨床決策(如藥品上市后監管和臨床指南制訂);④ 促進醫療質量。
目前真實世界研究中最廣泛使用的研究類型是觀察性研究[9],觀察性研究包括利用真實世界數據和研究型數據開展的隊列研究(包括前瞻性、回顧性、雙向性隊列研究)、橫斷面研究、注冊研究、病例-對照研究、病例系列和病例報告[10]。國家藥品監督管理局藥品審評中心發布了《用于產生真實世界證據的真實世界數據指導原則(試行)》[2],旨在促進基于醫院信息系統,如電子健康記錄(electronic health records,EHR)等數據庫開展的真實世界觀察性研究,為干預措施的結局評價提供更廣泛的證據。有文獻研究發現,觀察性研究證據質量有待提高,主要原因包括:一些真實世界數據庫由于結構或設計問題,可能不適合正在研究的人群;研究開展過程中研究設計不規范,如使用有偏差的抽樣方法;缺乏對混雜因素的調整,或不適當的分析方法導致不正確或不可靠的結論;對于多源異構數據的治理和分析缺乏恰當的方法;對RWE的評價方法不統一等,這些問題影響了高質量RWD的產生和醫療人員對RWE合理地解釋與使用,最終降低了醫療衛生決策效率。目前觀察性研究的證據評價工具仍不夠全面,而近年來真實世界的證據正蓬勃發展,因此亟需一個恰當的工具對真實世界研究的證據質量實施評估。本文通過對ArRoWS工具進行解讀,為真實世界研究的證據質量評價提供參考。
1 制訂背景
現有的評估真實世界觀察性研究工具,多是針對經典研究設計類型直接形成的真實世界證據展開評價。據報道,用于觀察性研究的方法學質量評價工具目前可查到22種[11-12],主要包括3種形式:一是量表式(scales),例如紐卡斯爾-渥太華量表(Newcastle-Ottawa Scale,NOS)[13],是由多個評估研究質量和偏倚風險的項目組成,對每個項目進行評分,并綜合得出一個總評分;二是清單式(checklists),例如英國牛津循證醫學中心文獻嚴格評價項目(Critical Appraisal Skill Program,CASP)[14],是由多個評估研究質量和偏倚風險的項目組成,不對每個項目進行評分;三是條目式(items),例如Crombie條目[11],由單個成分組成,與臨床研究方法相關,結果可能會有偏差,如分配隱藏和盲法。但是由于不被廣泛接受或適用性不強,其中大多數已不常使用或不被推薦使用。而且這些工具沒有考慮到真實世界證據評價的特殊性,缺乏對電子代碼的報告、數據庫的質量評估及臨床適用性評價。2015年開發的RECORD(reporting of studies conducted using routinely collected data)清單[15],是用于評估使用日常常規醫療數據研究報告的完整性,但缺乏報告研究的質量和臨床相關性評價。所以,對于采用真實世界實踐或醫療數據進行的觀察性研究,目前還沒有較為成熟且公認的評估工具,并且許多現有的工具不允許快速評估,要求評估人員有專門的知識和培訓來使用該工具。2021年3月,來自英國萊斯特大學糖尿病研究中心和萊斯特真實世界證據工作組的臨床流行病學專家們在美國《流行病學年鑒》上發表了題目為“Development, content validation, and reliability of the Assessment of Real-World Observational Studies (ArRoWS) critical appraisal tool”的專論,標志著ArRoWS的正式形成[16],該團隊在真實世界證據領域具有豐富的研究經驗。該工作組還與英國國家衛生研究院合作開發了ERICAS網站(https://www.ericas.org)[17],目的是提高心臟代謝醫學中高質量真實世界證據的可用性和可見性,并使用ArRoWS工具來評估一項研究是否能產生高質量的真實世界證據,并將選定的研究發布到ERICAS網站上,有助于臨床醫生和研究人員將真實世界證據應用于臨床決策。本文介紹的ArRoWS工具,是一種實用性較好且可快速評估真實世界研究質量的工具。
2 制訂過程
最初的ArRoWS工具是在2007年開發,旨在評價觀察性研究系統回顧的信息[18],并未形成具體的條目。本次工具研發在此基礎上更新了文獻檢索,納入2006年至2018年3月新發表的文獻,還納入了灰色文獻,共借鑒118個觀察性研究的評估工具,通過文獻綜述確定了兩個適用類型的領域:① 所有研究設計的內容領域;② 特定研究設計的內容領域(例如隊列研究、病例-對照研究)。綜合現有觀察性研究評估工具的條目,形成初步的ArRoWS條目池,工作組再通過專家調查問卷的形式檢驗工具內容效度的可理解性、相關性和全面性,ArRoWS評價工具的單個條目水平的內容效度指數為0.64~1.00,總量表的內容效度指數為0.91,內容效度良好。工作組進一步以與心臟代謝醫學相關的大樣本觀察性研究為例,由成對的評估人員獨立使用ArRoWS進行評級,來檢驗工具的信度和實用性,使用校正Kappa值測定ArRoWS的重測信度和評價者間信度,評價者之間的一致性有較大差異(校正Kappa值為0.18~0.71)。工具研發歷時15年,在前期研究積累基礎上,形成了明確的評價內容,最終發布的16個條目中包含9個通用條目和7個與特定研究設計相關的條目。本文對其進行詳細介紹和解讀,條目內容和評價結果見表1。

3 條目解讀
3.1 通用條目
3.1.1 條目1:研究問題或目的是否明確?
解讀:由于研究問題應該指導研究和引導ArRoWS,因此研究者必須明確地陳述研究問題或目的,并有明確的理由。真實世界證據研究必須促進臨床決策,因此,研究問題或目的必須具有重要的臨床意義。
3.1.2 條目2:該研究樣本是否能代表目標人群?
解讀:研究樣本應該能夠代表目標人群。因此,必須明確研究目標人群的選擇,抽樣方法必須適當,以使樣本能夠代表目標人群。不具有代表性的研究樣本可能會導致產生偏倚。研究者應充分解釋抽樣方法,包括納入與排除標準、招募方法和應答率。
3.1.3 條目3:是否提供樣本量、檢驗效能計算或不確定度的測量方法(例如:是否提供了置信區間或標準誤差)?
解讀:在真實世界證據研究中,存在著一定程度的不確定性。因此,量化統計參數的不確定性很重要。此外,必須計算檢驗效能來推斷研究是否有統計學差異。研究者應該提供樣本量、檢驗效能計算或不確定度的測量方法(例如置信區間或標準誤差)。但由于研究類型不同,這些措施可能不適用。可對不確定度的大小進行討論。這是唯一使用是/否來進行評級的條目。
3.1.4 條目4:暴露措施是否明確且合適?
解讀:準確的暴露特征是分析真實世界證據研究的一個關鍵因素。對暴露因素的評估有兩種方式。首先,必須明確定義暴露變量,包括考慮到暴露過程中可能出現的錯誤分類和數據的可靠性(例如患者報告的數據通常不如由醫療保健專業人員直接收集的數據可靠)。其次,如果暴露不明顯,作者應該證明該暴露因素對回答研究問題或目的的適當性。
3.1.5 條目5:結果是否明確且合適?
解讀:與條目4中的暴露類似,結果的準確描述是分析真實世界證據研究的一個關鍵因素。結果需要能明確回答研究問題或目的。作者還應該評估是否遺漏了重要的結果。
3.1.6 條目6:混雜因素是否清晰明確且合適?
解讀:混雜因素可能會導致暴露和結局之間出現虛假關聯,應該通過統計方法進行控制。混雜因素應該是清晰明確、預先確定且合理的,關于混雜因素的數據應該是可靠的。此外,對不可觀測的混雜因素也需重視。
3.1.7 條目7:統計分析是否清晰明確且合適?
解讀:其他研究人員可以使用相同的真實世界數據集來產生相同或類似的結果,具有可重復性。因此,作者應該提供一個全面的分析方法說明,包括如何處理缺失數據和失訪。應確定統計分析方法是否合適且可以明確回答研究問題或目的。在大多數情況下,對結果的穩定性判斷可通過敏感性分析方法來解決。
3.1.8 條目8:該研究的局限性是否明確且合適?
解讀:隨機對照試驗通常被認為是臨床研究中評價因果效應的金標準[19],與隨機對照試驗相比,真實世界證據研究本身存在一定程度的偏倚。在內容效度分析中,專家小組認為減小偏倚與評估真實世界證據研究的質量高度相關。在該研究的局限性范圍內,應該考慮更廣泛的偏倚。因此,本條目旨在評價作者是否充分承認并解釋了真實世界證據研究的局限性及其對研究結果的影響,并考慮到如何減小偏倚。
3.1.9 條目9:作者是否從他們的研究結果中得出了適當的結論?
解讀:經過專家小組對內容效度進行分析后增加了該條目。重要的是要確保不能將關聯推斷為因果關系。此外,研究結果不應適用于目標人群之外的人群。
3.2 特定研究設計的條目
3.2.1 隊列研究
① 條目1a:隨訪方法是否合適?解讀:隨訪方法必須是明確的,包括受試者失訪的程度。與研究中保留的受試者相比,失訪者不應該有額外的屬性,因為這可能會混淆這種關聯。② 條目2a:隨訪的時間是否足夠長以確定結果?解讀:對于真實世界證據研究,一個重要的考慮因素是確保隨訪的時間足夠長以確定結果。因此,應事先確定隨訪時間,可通過先前的研究和/或生物學或臨床知識來確定。③ 條目3a:如果作者正在測量治療效果,那么該分析方式(例如匹配、傾向性評分、工具變量)是否合適?解讀:經過專家小組對內容效度分析后,增加了該條目。由于大多數真實世界證據研究包括非隨機選擇的樣本,基線特征的差異可能因治療組而不同。因此,作者在測量治療效果時,應該使用合適的分析方法來解釋這一點。
3.2.2 病例-對照研究和比較效益研究
① 條目4a:作者是否解釋了他們對病例和對照的選擇?解讀:所選的對照組必須能代表目標人群,選擇對照時應使選擇性偏倚最小化,同時為研究提供足夠的統計效能[20]。病例和對照應來源于同一人群,病例的納入與排除標準也必須是明確和合理的。② 條目5a:如果是一個匹配病例-對照研究,作者是否描述了他們的匹配標準?解讀:匹配病例和對照可以減少混雜因素,并提高研究效率[21]。還可以控制難以量化的因素,如基于鄰域級屬性的匹配。作者應該充分解釋匹配過程,并證明用于匹配的標準。③ 條目6a:如果是一個匹配病例-對照研究,在分析中是否考慮了匹配?解讀:對于匹配病例-對照研究是否必須進行匹配分析存在一些爭論[22-24]。但是,在分析過程中,必須以某種方式控制匹配因素。
3.2.3 電子數據庫研究
條目7a:作者是否列出/引用的(從先前的文獻中)代碼集(ICD代碼、讀取代碼)相關測試、程序、治療和臨床事件?解讀:經過專家小組對內容效度分析后,增加了該條目。這個條目有兩個目的,首先,應該充分提供所使用代碼的細節,以便其他研究人員能夠重復這項研究。其次,代碼應該從相關引用的文獻中預先確定。如果可能的話,作者應該提出所使用代碼的敏感性和特異性。
4 評價標準
每個條目的評價選項有“好”、“中等”、“差”和“不清楚”。ArRoWS研究工作組遴選出7個影響高質量真實世界證據產生的關鍵條目,分別為條目1、2、4、5、6、7、8、9。如果作者未能完全說明某條目,則該條目應該被評為“中等”;如果作者根本沒有解決這個條目,它應該被評為“差”或“不清楚”。根據這些回答,評價者應該為該研究提供一個總體評級和評價其產生真實世界證據的能力。一些研究可能會在一些條目上被評為“好”,但有一個關鍵條目不符合(例如大量數據的缺失、測量的不一致性或不確定的測量方法),這會影響研究產生高質量的真實世界證據的能力。因此,這項研究的總體分級可能只是“中等”。另一方面,研究可能有一些小的缺陷,但作者已經認識到并適當地控制了這些缺陷,那么這些研究可被評為“好”。若研究總體上被評為“質量較差”,并不一定意味著是質量較差的研究。這個分級方法僅僅意味著這項研究降低了產生真實世界證據的效用。被評為“良好”的研究將由臨床醫生進行進一步評估。建議不要將單個項目的評級合并得出一個綜合等級。相反,評估者應該考慮對每個項目的不良評級對研究提供真實世界證據能力的潛在影響(表2)。

5 報告模式
ArRoWS評價結果推薦用表格的形式進行呈現。表3舉例展示了ArRoWS的評價結果[25-26]。如果一個研究的樣本量很小,則認為該研究樣本無法代表其目標人群。除了條目3的評級為是或否外,所有其他條目都被評為良好、中等或差。每個條目的評級對研究提供真實世界證據的潛在能力需被單獨考慮。當10個條目(9個核心條目和1個特定條目)中有8個條目被評為良好時,總體等級可被評為良好。

6 討論
目前使用評估工具評價觀察性研究質量的研究并不廣泛,僅有少數研究探討文獻質量評價方法,如基于NOS量表對中國吸煙人群相關隊列研究、對老年譫妄危險因素和預后隊列研究、對中國人群的傷害預防的病例-對照研究和隊列研究及中醫藥療效評價隊列研究評價文獻質量的研究[27-31]。并且以上都是針對傳統觀察性研究,目前探討真實世界觀察性研究文獻質量的研究更少,如對真實世界研究中急性心力衰竭患者30天再住院率的系統評價[32],其中只納入了隊列研究,而對其他類型研究因缺乏統一偏倚風險評價工具,故未進行評價。目前常用的觀察性研究的質量評價工具[33],包括NOS量表適用于評價病例-對照研究和隊列研究,CASP清單適用于隊列研究與病例-對照研究,美國衛生保健質量和研究機構標準(Agency for Healthcare Research and Quality,AHRQ)推薦用于橫斷面研究評價,不適用于電子數據庫研究。RECORD清單和GRACE(good research for comparative effectiveness)清單[15]用于真實世界研究規范報告,但不能用于評價研究的質量。《中醫藥真實世界研究技術規范-證據質量評價與報告》[34]該標準推薦評估真實世界證據的質量時可借鑒ArRoWS工具,ArRoWS的評價對象是真實世界研究,可適用于評價隊列研究、病例-對照研究、比較效益研究和電子數據庫研究,是一種通用的評價工具,運用的研究類型比較廣泛,該工具的優勢還在于當一個系統評價中納入多種研究類型的時候,只需要用ArRoWS工具就可以評價不同納入研究的質量,減少使用不同工具帶來的偏差,省去了使用不同工具的繁瑣過程,能為研究者評價文章的質量提供更多依據。
該工具提供了足夠的靈活性,且易于使用,可以應用于許多類型的真實世界證據研究,從描述性研究到比較效益研究,以及基于電子病歷數據開展的真實世界研究,可以使真實世界證據研究的評估標準化。經研發小組驗證,ArRoWS工具有較好的內容效度,是一種值得推薦的方法學質量評價工具。但是,使用該工具報告時會遇到一些常見問題,包括代表性評估(醫療保險電子病歷和自愿參與的數據庫)、偏倚來源(持續時間和選擇偏倚)和混雜因素的控制。關于ArRoWS的更廣泛的適用性還有待進一步的驗證,目前只有國外研究者使用該工具對在PubMed檢索的真實世界證據研究進行了質量評價[35],并使用STaRT-RWE(Structured Template and Reporting Tool for RWE)模板作為報告真實世界證據研究實施情況的結構化模板[35]。ArRoWS作為新發布的方法學質量評價工具,還需要時間和實踐去不斷完善,需要評價者在使用過程中提供寶貴的建議。評價人員之間的一致性有待進一步的提高,還需要進一步的指導和/或培訓。
真實世界數據(real world data,RWD)是指來自真實醫療環境的研究數據,反映實際診療及醫療服務過程和真實條件下的患者健康狀況[1-2],其數據來源主要為基于臨床或管理目的常規收集的健康醫療數據(routinely collected health data,RCD)和基于一定研究目的主動收集的健康醫療數據[3],前者包括醫院電子病歷數據(electronic medical record,EMR)、健康/安全監測數據、醫保數據及其他健康數據等;后者包括傳統流行病學研究的數據[3]。基于RWD開展的真實世界研究,是RWD轉化為真實世界證據(real world evidence,RWE)的重要橋梁[4]。目前RWD和RWE日益得到醫藥衛生行業專家和學者的重視,其主要用途包括以下幾方面[5-8]:① 醫藥產品的評價和衛生政策制定(如中成藥有效性評價、藥械監管和醫保決策);② 疾病臨床研究(如臨床療效、患者預后等);③ 輔助管理和臨床決策(如藥品上市后監管和臨床指南制訂);④ 促進醫療質量。
目前真實世界研究中最廣泛使用的研究類型是觀察性研究[9],觀察性研究包括利用真實世界數據和研究型數據開展的隊列研究(包括前瞻性、回顧性、雙向性隊列研究)、橫斷面研究、注冊研究、病例-對照研究、病例系列和病例報告[10]。國家藥品監督管理局藥品審評中心發布了《用于產生真實世界證據的真實世界數據指導原則(試行)》[2],旨在促進基于醫院信息系統,如電子健康記錄(electronic health records,EHR)等數據庫開展的真實世界觀察性研究,為干預措施的結局評價提供更廣泛的證據。有文獻研究發現,觀察性研究證據質量有待提高,主要原因包括:一些真實世界數據庫由于結構或設計問題,可能不適合正在研究的人群;研究開展過程中研究設計不規范,如使用有偏差的抽樣方法;缺乏對混雜因素的調整,或不適當的分析方法導致不正確或不可靠的結論;對于多源異構數據的治理和分析缺乏恰當的方法;對RWE的評價方法不統一等,這些問題影響了高質量RWD的產生和醫療人員對RWE合理地解釋與使用,最終降低了醫療衛生決策效率。目前觀察性研究的證據評價工具仍不夠全面,而近年來真實世界的證據正蓬勃發展,因此亟需一個恰當的工具對真實世界研究的證據質量實施評估。本文通過對ArRoWS工具進行解讀,為真實世界研究的證據質量評價提供參考。
1 制訂背景
現有的評估真實世界觀察性研究工具,多是針對經典研究設計類型直接形成的真實世界證據展開評價。據報道,用于觀察性研究的方法學質量評價工具目前可查到22種[11-12],主要包括3種形式:一是量表式(scales),例如紐卡斯爾-渥太華量表(Newcastle-Ottawa Scale,NOS)[13],是由多個評估研究質量和偏倚風險的項目組成,對每個項目進行評分,并綜合得出一個總評分;二是清單式(checklists),例如英國牛津循證醫學中心文獻嚴格評價項目(Critical Appraisal Skill Program,CASP)[14],是由多個評估研究質量和偏倚風險的項目組成,不對每個項目進行評分;三是條目式(items),例如Crombie條目[11],由單個成分組成,與臨床研究方法相關,結果可能會有偏差,如分配隱藏和盲法。但是由于不被廣泛接受或適用性不強,其中大多數已不常使用或不被推薦使用。而且這些工具沒有考慮到真實世界證據評價的特殊性,缺乏對電子代碼的報告、數據庫的質量評估及臨床適用性評價。2015年開發的RECORD(reporting of studies conducted using routinely collected data)清單[15],是用于評估使用日常常規醫療數據研究報告的完整性,但缺乏報告研究的質量和臨床相關性評價。所以,對于采用真實世界實踐或醫療數據進行的觀察性研究,目前還沒有較為成熟且公認的評估工具,并且許多現有的工具不允許快速評估,要求評估人員有專門的知識和培訓來使用該工具。2021年3月,來自英國萊斯特大學糖尿病研究中心和萊斯特真實世界證據工作組的臨床流行病學專家們在美國《流行病學年鑒》上發表了題目為“Development, content validation, and reliability of the Assessment of Real-World Observational Studies (ArRoWS) critical appraisal tool”的專論,標志著ArRoWS的正式形成[16],該團隊在真實世界證據領域具有豐富的研究經驗。該工作組還與英國國家衛生研究院合作開發了ERICAS網站(https://www.ericas.org)[17],目的是提高心臟代謝醫學中高質量真實世界證據的可用性和可見性,并使用ArRoWS工具來評估一項研究是否能產生高質量的真實世界證據,并將選定的研究發布到ERICAS網站上,有助于臨床醫生和研究人員將真實世界證據應用于臨床決策。本文介紹的ArRoWS工具,是一種實用性較好且可快速評估真實世界研究質量的工具。
2 制訂過程
最初的ArRoWS工具是在2007年開發,旨在評價觀察性研究系統回顧的信息[18],并未形成具體的條目。本次工具研發在此基礎上更新了文獻檢索,納入2006年至2018年3月新發表的文獻,還納入了灰色文獻,共借鑒118個觀察性研究的評估工具,通過文獻綜述確定了兩個適用類型的領域:① 所有研究設計的內容領域;② 特定研究設計的內容領域(例如隊列研究、病例-對照研究)。綜合現有觀察性研究評估工具的條目,形成初步的ArRoWS條目池,工作組再通過專家調查問卷的形式檢驗工具內容效度的可理解性、相關性和全面性,ArRoWS評價工具的單個條目水平的內容效度指數為0.64~1.00,總量表的內容效度指數為0.91,內容效度良好。工作組進一步以與心臟代謝醫學相關的大樣本觀察性研究為例,由成對的評估人員獨立使用ArRoWS進行評級,來檢驗工具的信度和實用性,使用校正Kappa值測定ArRoWS的重測信度和評價者間信度,評價者之間的一致性有較大差異(校正Kappa值為0.18~0.71)。工具研發歷時15年,在前期研究積累基礎上,形成了明確的評價內容,最終發布的16個條目中包含9個通用條目和7個與特定研究設計相關的條目。本文對其進行詳細介紹和解讀,條目內容和評價結果見表1。

3 條目解讀
3.1 通用條目
3.1.1 條目1:研究問題或目的是否明確?
解讀:由于研究問題應該指導研究和引導ArRoWS,因此研究者必須明確地陳述研究問題或目的,并有明確的理由。真實世界證據研究必須促進臨床決策,因此,研究問題或目的必須具有重要的臨床意義。
3.1.2 條目2:該研究樣本是否能代表目標人群?
解讀:研究樣本應該能夠代表目標人群。因此,必須明確研究目標人群的選擇,抽樣方法必須適當,以使樣本能夠代表目標人群。不具有代表性的研究樣本可能會導致產生偏倚。研究者應充分解釋抽樣方法,包括納入與排除標準、招募方法和應答率。
3.1.3 條目3:是否提供樣本量、檢驗效能計算或不確定度的測量方法(例如:是否提供了置信區間或標準誤差)?
解讀:在真實世界證據研究中,存在著一定程度的不確定性。因此,量化統計參數的不確定性很重要。此外,必須計算檢驗效能來推斷研究是否有統計學差異。研究者應該提供樣本量、檢驗效能計算或不確定度的測量方法(例如置信區間或標準誤差)。但由于研究類型不同,這些措施可能不適用。可對不確定度的大小進行討論。這是唯一使用是/否來進行評級的條目。
3.1.4 條目4:暴露措施是否明確且合適?
解讀:準確的暴露特征是分析真實世界證據研究的一個關鍵因素。對暴露因素的評估有兩種方式。首先,必須明確定義暴露變量,包括考慮到暴露過程中可能出現的錯誤分類和數據的可靠性(例如患者報告的數據通常不如由醫療保健專業人員直接收集的數據可靠)。其次,如果暴露不明顯,作者應該證明該暴露因素對回答研究問題或目的的適當性。
3.1.5 條目5:結果是否明確且合適?
解讀:與條目4中的暴露類似,結果的準確描述是分析真實世界證據研究的一個關鍵因素。結果需要能明確回答研究問題或目的。作者還應該評估是否遺漏了重要的結果。
3.1.6 條目6:混雜因素是否清晰明確且合適?
解讀:混雜因素可能會導致暴露和結局之間出現虛假關聯,應該通過統計方法進行控制。混雜因素應該是清晰明確、預先確定且合理的,關于混雜因素的數據應該是可靠的。此外,對不可觀測的混雜因素也需重視。
3.1.7 條目7:統計分析是否清晰明確且合適?
解讀:其他研究人員可以使用相同的真實世界數據集來產生相同或類似的結果,具有可重復性。因此,作者應該提供一個全面的分析方法說明,包括如何處理缺失數據和失訪。應確定統計分析方法是否合適且可以明確回答研究問題或目的。在大多數情況下,對結果的穩定性判斷可通過敏感性分析方法來解決。
3.1.8 條目8:該研究的局限性是否明確且合適?
解讀:隨機對照試驗通常被認為是臨床研究中評價因果效應的金標準[19],與隨機對照試驗相比,真實世界證據研究本身存在一定程度的偏倚。在內容效度分析中,專家小組認為減小偏倚與評估真實世界證據研究的質量高度相關。在該研究的局限性范圍內,應該考慮更廣泛的偏倚。因此,本條目旨在評價作者是否充分承認并解釋了真實世界證據研究的局限性及其對研究結果的影響,并考慮到如何減小偏倚。
3.1.9 條目9:作者是否從他們的研究結果中得出了適當的結論?
解讀:經過專家小組對內容效度進行分析后增加了該條目。重要的是要確保不能將關聯推斷為因果關系。此外,研究結果不應適用于目標人群之外的人群。
3.2 特定研究設計的條目
3.2.1 隊列研究
① 條目1a:隨訪方法是否合適?解讀:隨訪方法必須是明確的,包括受試者失訪的程度。與研究中保留的受試者相比,失訪者不應該有額外的屬性,因為這可能會混淆這種關聯。② 條目2a:隨訪的時間是否足夠長以確定結果?解讀:對于真實世界證據研究,一個重要的考慮因素是確保隨訪的時間足夠長以確定結果。因此,應事先確定隨訪時間,可通過先前的研究和/或生物學或臨床知識來確定。③ 條目3a:如果作者正在測量治療效果,那么該分析方式(例如匹配、傾向性評分、工具變量)是否合適?解讀:經過專家小組對內容效度分析后,增加了該條目。由于大多數真實世界證據研究包括非隨機選擇的樣本,基線特征的差異可能因治療組而不同。因此,作者在測量治療效果時,應該使用合適的分析方法來解釋這一點。
3.2.2 病例-對照研究和比較效益研究
① 條目4a:作者是否解釋了他們對病例和對照的選擇?解讀:所選的對照組必須能代表目標人群,選擇對照時應使選擇性偏倚最小化,同時為研究提供足夠的統計效能[20]。病例和對照應來源于同一人群,病例的納入與排除標準也必須是明確和合理的。② 條目5a:如果是一個匹配病例-對照研究,作者是否描述了他們的匹配標準?解讀:匹配病例和對照可以減少混雜因素,并提高研究效率[21]。還可以控制難以量化的因素,如基于鄰域級屬性的匹配。作者應該充分解釋匹配過程,并證明用于匹配的標準。③ 條目6a:如果是一個匹配病例-對照研究,在分析中是否考慮了匹配?解讀:對于匹配病例-對照研究是否必須進行匹配分析存在一些爭論[22-24]。但是,在分析過程中,必須以某種方式控制匹配因素。
3.2.3 電子數據庫研究
條目7a:作者是否列出/引用的(從先前的文獻中)代碼集(ICD代碼、讀取代碼)相關測試、程序、治療和臨床事件?解讀:經過專家小組對內容效度分析后,增加了該條目。這個條目有兩個目的,首先,應該充分提供所使用代碼的細節,以便其他研究人員能夠重復這項研究。其次,代碼應該從相關引用的文獻中預先確定。如果可能的話,作者應該提出所使用代碼的敏感性和特異性。
4 評價標準
每個條目的評價選項有“好”、“中等”、“差”和“不清楚”。ArRoWS研究工作組遴選出7個影響高質量真實世界證據產生的關鍵條目,分別為條目1、2、4、5、6、7、8、9。如果作者未能完全說明某條目,則該條目應該被評為“中等”;如果作者根本沒有解決這個條目,它應該被評為“差”或“不清楚”。根據這些回答,評價者應該為該研究提供一個總體評級和評價其產生真實世界證據的能力。一些研究可能會在一些條目上被評為“好”,但有一個關鍵條目不符合(例如大量數據的缺失、測量的不一致性或不確定的測量方法),這會影響研究產生高質量的真實世界證據的能力。因此,這項研究的總體分級可能只是“中等”。另一方面,研究可能有一些小的缺陷,但作者已經認識到并適當地控制了這些缺陷,那么這些研究可被評為“好”。若研究總體上被評為“質量較差”,并不一定意味著是質量較差的研究。這個分級方法僅僅意味著這項研究降低了產生真實世界證據的效用。被評為“良好”的研究將由臨床醫生進行進一步評估。建議不要將單個項目的評級合并得出一個綜合等級。相反,評估者應該考慮對每個項目的不良評級對研究提供真實世界證據能力的潛在影響(表2)。

5 報告模式
ArRoWS評價結果推薦用表格的形式進行呈現。表3舉例展示了ArRoWS的評價結果[25-26]。如果一個研究的樣本量很小,則認為該研究樣本無法代表其目標人群。除了條目3的評級為是或否外,所有其他條目都被評為良好、中等或差。每個條目的評級對研究提供真實世界證據的潛在能力需被單獨考慮。當10個條目(9個核心條目和1個特定條目)中有8個條目被評為良好時,總體等級可被評為良好。

6 討論
目前使用評估工具評價觀察性研究質量的研究并不廣泛,僅有少數研究探討文獻質量評價方法,如基于NOS量表對中國吸煙人群相關隊列研究、對老年譫妄危險因素和預后隊列研究、對中國人群的傷害預防的病例-對照研究和隊列研究及中醫藥療效評價隊列研究評價文獻質量的研究[27-31]。并且以上都是針對傳統觀察性研究,目前探討真實世界觀察性研究文獻質量的研究更少,如對真實世界研究中急性心力衰竭患者30天再住院率的系統評價[32],其中只納入了隊列研究,而對其他類型研究因缺乏統一偏倚風險評價工具,故未進行評價。目前常用的觀察性研究的質量評價工具[33],包括NOS量表適用于評價病例-對照研究和隊列研究,CASP清單適用于隊列研究與病例-對照研究,美國衛生保健質量和研究機構標準(Agency for Healthcare Research and Quality,AHRQ)推薦用于橫斷面研究評價,不適用于電子數據庫研究。RECORD清單和GRACE(good research for comparative effectiveness)清單[15]用于真實世界研究規范報告,但不能用于評價研究的質量。《中醫藥真實世界研究技術規范-證據質量評價與報告》[34]該標準推薦評估真實世界證據的質量時可借鑒ArRoWS工具,ArRoWS的評價對象是真實世界研究,可適用于評價隊列研究、病例-對照研究、比較效益研究和電子數據庫研究,是一種通用的評價工具,運用的研究類型比較廣泛,該工具的優勢還在于當一個系統評價中納入多種研究類型的時候,只需要用ArRoWS工具就可以評價不同納入研究的質量,減少使用不同工具帶來的偏差,省去了使用不同工具的繁瑣過程,能為研究者評價文章的質量提供更多依據。
該工具提供了足夠的靈活性,且易于使用,可以應用于許多類型的真實世界證據研究,從描述性研究到比較效益研究,以及基于電子病歷數據開展的真實世界研究,可以使真實世界證據研究的評估標準化。經研發小組驗證,ArRoWS工具有較好的內容效度,是一種值得推薦的方法學質量評價工具。但是,使用該工具報告時會遇到一些常見問題,包括代表性評估(醫療保險電子病歷和自愿參與的數據庫)、偏倚來源(持續時間和選擇偏倚)和混雜因素的控制。關于ArRoWS的更廣泛的適用性還有待進一步的驗證,目前只有國外研究者使用該工具對在PubMed檢索的真實世界證據研究進行了質量評價[35],并使用STaRT-RWE(Structured Template and Reporting Tool for RWE)模板作為報告真實世界證據研究實施情況的結構化模板[35]。ArRoWS作為新發布的方法學質量評價工具,還需要時間和實踐去不斷完善,需要評價者在使用過程中提供寶貴的建議。評價人員之間的一致性有待進一步的提高,還需要進一步的指導和/或培訓。