病歷回顧性研究(RCR)是指基于現有的患者病歷資料或相關數據庫,通過數據提取、數據整理、統計分析等一系列研究流程以回答特定研究問題的一類回顧性研究。依托于醫療大數據的持續發展,加之實施流程相對簡單、信息獲取成本較低,RCR在醫學研究領域中的應用日益廣泛。本文對近5年內SCI收錄的高質量RCR進行可視化分析,通過分析發文量特征、國家/地區與機構合作網絡、作者合作網絡、關鍵詞共現與聚類網絡來探索、總結當前研究現狀及熱點;同時進一步從研究問題與假設、病歷資料適用性、研究方案設計、倫理許可、數據收集、統計分析、結果解讀、研究報告規范8個方面系統梳理此類研究的方法學內核。通過總結已發表RCR不足之處、獨特優勢和應用前景,為RCR在未來醫學研究領域的合理化、規范化應用提供方法學指導和建議。
引用本文: 景城陽, 胡晶, 廖星, 詹思延. 病歷回顧性研究的可視化分析及方法學芻議. 中國循證醫學雜志, 2023, 23(5): 588-596. doi: 10.7507/1672-2531.202303006 復制
病歷回顧性研究(retrospective chart review,RCR)是指基于現有的患者病歷信息或相關數據庫,通過數據提取、數據整理、統計分析等一系列研究流程以回答特定研究問題的一類回顧性研究[1-3]。作為RCR的主要數據來源,“病歷”的范圍有狹義與廣義之分。狹義上的“病歷”僅指記錄患者具體診療信息的相關文檔,如門診/住院病歷、護理記錄、會診記錄、檢驗/檢查報告、出入院報告等,故既往也稱之為病案回顧研究(medical record review,MRR)[2]。隨著電子信息技術的快速發展,基于患者醫療信息構建的電子數據庫,如臨床專病數據庫、醫療保險公司的病歷信息系統、各省(市、區)的醫療保障信息平臺等,也被納為RCR的數據來源,以開展諸如流行病學調查、醫療服務體系評估、醫療決策模型構建等多種實證研究[4-7],因此廣義上的“病歷”還包括源自于科研機構、醫療保險公司和(或)政府衛生部門的院外衛生保健檔案/報告等一切可獲得患者醫療信息的文件[2,8]。基于廣義上的概念,有學者指出,任何從醫療文件中提取信息的研究都可以歸類為RCR[9]。盡管此定義過于寬泛,但對于RCR的數據來源卻做出了相應界定,即任何記錄并留存的、與患者衛生保健相關的資料信息。
近年來,隨著醫療大數據的使用越來越規范和普遍,加之實施流程相對簡單、信息獲取成本較低,RCR在醫學研究領域中的應用日益廣泛[10-11]。僅在急診醫學研究領域中,通過RCR發表的期刊論文占比就可達25%~53%[9]。然而,現有RCR在設計、實施及報告方面的質量參差不齊,例如研究人群或研究變量選擇不恰當、研究設計不合理或實施流程不清晰、數據提取時產生較大偏倚、報告透明度欠佳等[3, 9],因而不同程度地影響了研究結果的科學性和真實性。本文對近5年收錄于科學引文索引(science citation index,SCI)的高質量RCR進行可視化分析以探索當前研究現狀及熱點,并進一步系統梳理了RCR的方法學內核,以期為未來的合理化、規范化研究提供指導與建議。
1 可視化分析
1.1 資料與方法
1.1.1 文獻檢索與篩選
計算機檢索Web of Science(WoS)數據庫核心合集,檢索策略為:Topic Search(主題檢索)=(retrospective chart review)OR(medical record review),檢索時間限制在2018年1月1日至2022年12月31日。通過閱讀文章標題與摘要,按照納入與排除標準來篩選合格文獻。納入標準為:① 明確說明研究數據來源于病歷資料;② 研究類型為實證研究且發表類型為期刊論文;③ 研究收錄于SCI并能通過WoS數據庫核心合集檢索獲得。排除標準為:① 發表類型為研究方案、會議論文、社論或評論;② 重復發表的文獻。
1.1.2 研究方法
將納入的文獻題錄以txt格式導出,并以“download_**.txt”命名后導入CiteSpace軟件(V6.1.R1)進行格式轉換[12]。設置時間跨度為2018―2022年,間隔為1年;主題詞來源默認全選;節點類型中“作者”、“機構”、“國家/地區”的閾值(Top N Per slice)設置為20,“關鍵詞”的閾值(Top N Per slice)設置為50。選擇路徑發現(pathfinder)、切片網絡剪枝(pruning sliced networks)、整體網絡剪枝(pruning the merged network)的圖譜剪切方式簡化網絡結構以突出重要結構特征,并采用聚類靜態(cluster view-static)和展示整體網絡(show merged network)的可視化方式呈現最終分析圖譜。
1.2 結果
1.2.1 納入研究的發文量特征
在WoS數據庫中共檢索出RCR相關文獻12 847篇,經去重、納入與排除標準篩選后,最終納入合格文獻9 260篇,其中2018年1 691篇,2019年1 700篇,2020年1 869篇,2021年2 173篇,2022年1 829篇。5年間的發文量總體上呈現逐年遞增的趨勢,但在2022年較前一年有所下滑。具體發文量變化趨勢見附件圖1。
1.2.2 國家/地區與機構合作網絡分析
國家/地區合作網絡圖譜(附件圖2)共獲得25個節點,25條連線,網絡密度0.083 3。結果顯示,發文量排名前20位的國家/地區分別為美國、加拿大、中國、韓國、澳大利亞、日本、德國、沙特阿拉伯、意大利、英格蘭、以色列、印度、土耳其、法國、瑞士、荷蘭、泰國、西班牙、南非、巴西;分屬于亞洲(8個)、歐洲(8個)、北美洲(2個)、南美洲(1個)、大洋洲(1個)、非洲(1個),在全球地理位置上的分布較為均勻。共現關系圖譜表明,歐洲諸國之間的合作最為普遍,其中西班牙是開展跨國合作研究最多和最為頻繁的國家。美國、中國、加拿大盡管在發文量上位居前三,但更傾向于開展本土化研究。
機構合作網絡圖譜(附件圖3)共獲得38個節點,38條連線,網絡密度0.054 1。結果顯示,發文量超過20篇的研究機構數量為38個,其中35個位于美國,2個位于加拿大,1個位于以色列。主流發文機構多為公立醫療機構、大學醫學院系或其附屬醫院。發文量排名前20位的機構見附件表1。發文量最多的研究機構是哈佛醫學院,且與其他機構存在最多的共現關系。整體來看,美國國內的研究機構間相互合作十分普遍,這也是其發文量獨占鰲頭的重要原因之一。
1.2.3 作者合作網絡分析
作者合作網絡圖譜(附件圖4)共獲得215個節點、228條連線,網絡密度為0.009 9。節點越大代表該作者的發文量越多;連線表示作者的共現關系,線條越粗代表兩者的合作越緊密;紫色、藍色、綠色、黃色、紅色依次代表2018—2022年中的各個自然年。結果顯示,5年來發文量最多的作者為Moon,累計發表期刊論文12篇;累計發文量排名前10位的作者均發表了不少于8篇的論文數量,具體見附件表2。圖譜的可視化分析表明,中高產作者間存在較為緊密的合作關系,并形成了多個具有一定規模的研究團隊。但此類團隊的核心成員最多為8名,并且共同合作的年數不超過3年。此外,節點、連線比例與低網絡密度表明,不同的研究團隊間幾乎未見合作關系,提示各團隊的研究領域或方向重疊性極低。
1.2.4 關鍵詞共現分析
關鍵詞共現網絡圖譜(附件圖5)共獲得80個節點、200條連線,網絡密度為0.063 3。節點大小代表關鍵詞的出現頻次,連線粗細表示表示共現關系強度,線的顏色表示對應節點第一次共現時間,兩者聯合可以在一定程度上呈現出研究領域中的熱點。結果顯示,出現頻次超過100的關鍵詞有42個,其中排名前20位的關鍵詞見附件表3。圖譜的可視化分析表明,高頻次關鍵詞間存在相當緊密的聯系,結合中心度可將RCR的研究熱點總結為以下三類:① 疾病治療/干預措施的管理、并發癥、結局與隨訪情況(關鍵詞:therapy、surgery、guideline、management、complication、outcome、follow up);② 疾病的流行病學特征、危險因素與預后(關鍵詞:risk factor、mortality、prevalence、epidemiology、infection、cancer、survival);③ 嬰幼兒/兒童/青少年(即未成年人群)的患病風險、損傷特征與診斷(關鍵詞:infant、children、adolescent、age、disease、risk、injury、diagnosis)。依賴病歷資料中豐富、翔實的臨床信息,前兩類研究重點關注疾病本身,不僅僅是疾病的臨床特征,還囊括了從篩查、診斷、治療乃至預后的疾病發生、發展全過程;第三類則重點關注未成年人群在臨床中的特征性表現。
關鍵詞突現是指關鍵詞在短時間內的出現頻次顯著增加,通過對突現情況的分析可進一步探究研究熱點的起止時間及動態變化。以關鍵詞共現網絡為基礎,通過檢測關鍵詞突現情況進一步展示近5年來中國RCR的熱點變化及現狀(附件圖6)。從時間線來看,從2018年到2021年,各自涌現出一批不同的研究熱點。結合研究內容綜合分析,epidemiology、risk、risk factor、association等多個起止于不同時間點的突現關鍵詞表明,疾病的流行病學研究始終是近年來的最大熱點,而診斷與預后研究同樣備受關注;研究疾病方面,癌癥作為突現強度最大的具體病種關鍵詞,體現出我國研究人員對其的關注度高;研究人群方面,與全球范圍內的研究熱點一致,兒童亦是我國RCR的熱門研究對象;手術、療效分別是研究熱度最高的干預措施和結局指標。
1.2.5 關鍵詞聚類分析
通過log-likelihood ratio(LLR)算法對關鍵詞共現網絡進行聚類分析。最終形成了9個聚類標簽,模塊化Q=0.787,平均輪廓S=0.950,代表聚類結構顯著且結果可信度高。主要針對聚類標簽中范圍較大且k值大于2的前4個核心聚類網絡進行分析,其中聚類大小與序號成反比(圖1)。第一類別children(#0)為最大聚類,包含了disease、risk、injury、pain、classification等高頻關鍵詞,主要圍繞兒童、嬰幼兒等未成年人群而開展不同主題的臨床回顧性研究。這可能由于從倫理角度和研究配合程度而言,未成年人群相較于成人更難于開展前瞻性的臨床研究,因此采用RCR可以彌補相關研究領域的空白。第二類別complication(#1)包含risk factor、mortality、infection、impact、bariatric surgery等高頻關鍵詞,主要采用RCR以探索臨床疾病或干預/治療手段引起的并發癥特征及相關危險因素、特定臨床結局。值得注意的是,COVID-19作為出現頻次較高的關鍵詞被歸入此類別,提示RCR作為一種回顧性研究,亦能針對新型冠狀病毒肺炎(以下簡稱為“新冠肺炎”)這樣的突發公共衛生事件而取得數量較為可觀的研究成果。第三類別palliative care(#2)包含cancer、quality of life、cost、depression、mental health、validation等高頻關鍵詞,主要通過RCR回顧性評價姑息治療對癌癥患者生活質量、心理健康狀況、治療費用等不同結局指標的影響及有效性。第四類別diagnosis(#3)包含prevalence、population、women、emergency department、symptom、feature等高頻關鍵詞,主要關注疾病在特定人群或特定地點中的臨床特征情況及對應診斷。

1.3 小結
2018―2022年間發表的高質量RCR具有以下特點:① 研究發文量較大,且廣泛開展于全球各地;② 除歐洲諸國外大多數國家更傾向于開展本土化研究,其中又以美國的研究數量為最,其機構間的合作關系也最為普遍和緊密,這可能與地理位置、國家人口、病歷資料獲取難易程度等多種客觀因素有關;③ RCR的研究團隊成員通常數量不多但相互合作關系穩定,且涉及的研究領域及方向十分繁雜,各研究團隊間幾乎無合作關系;④ 研究熱點可總結為三類:疾病治療/干預措施的管理、并發癥、結局和隨訪;疾病的流行病學特征、危險因素與預后;未成年人群的患病風險、損傷特征與診斷,其中我國的RCR研究熱點與全球范圍內的高度重合;⑤ 具體的研究領域主要集中于兒童人群、并發癥、姑息治療、疾病診斷等特定主題。
2 方法學芻議
美國食品藥品監督管理局(Food and Drug Administration,FDA)在《英格蘭醫學雜志》上發文指出:基于真實世界數據開展的真實世界研究,其產生的證據與“傳統”臨床隨機對照試驗(randomized controlled trial,RCT)證據的本質區別并非在于研究方法和研究設計,而在于獲取數據的背景環境[13]。即真實世界數據是指源于醫療機構、家庭或社區日常所收集的患者健康狀況和(或)診療及保健相關的數據,與科研機構通過諸多嚴格方法學限制而產生的數據具有本質區別[13]。RCR不施加額外干預,且所應用的數據均產生于研究開展之前、符合常規收集醫療衛生數據的定義,即基于臨床或管理目的、事先沒有針對特定研究目標而收集的一類數據[14],因此可以歸類為真實世界研究。然而,也正是由于研究數據來源于真實世界,在從病歷資料的原始信息中提取研究數據時,不可避免會存在諸多偏倚。例如,患者報告的信息有誤或是遺漏(回憶偏倚);負責記錄的醫護人員因疏忽或固有思維而漏記、少記信息(信息偏倚);研究者對原始記錄信息的解讀存在誤解而導致分類錯誤(錯分偏倚);對所提取數據的分析及結果解讀與真實情況存在偏差(報告偏倚)等。除此之外,還存在研究類型不適用或倫理考量缺失等問題。因此,部分研究受到了方法學層面的詬病。以下將通過歸納開展RCR的具體流程(圖2),芻議其在方法學層面需要考慮的問題及相應對策。

2.1 研究問題與假設
研究問題應當是基于現有知識或證據合理推導且需要進一步驗證的一個或一系列具體問題,其對研究設計及研究結果表達具有直接影響作用[15]。參考Morgan等[16]提出的分類框架,并結合應用現狀,可以將RCR的研究問題大致歸納為三類:① 描述性問題:為獲取現有或既往已發生事件/結局/特征而提出的問題,例如獲得現在或過去某一時點在某地區某種疾病的發病率/患病率,歸納、總結某一罕見疾病的實驗室及影像學特征性表現等,其結果通常以頻數、百分比、集中趨勢指標(均數、中位數)、離散程度指標(標準差、方差、四分位數間距)等進行報告并通過相應的圖片、表格形式來呈現;② 關聯性問題:為分析不同現象之間的關聯關系而提出的問題,例如確定暴露與結局間的因果關系,探索特定干預措施與患者結局變化的關聯程度等,其結果通常以相關系數或模型來呈現;③ 比較性問題:為比較不同自變量與因變量之間的關系而提出的問題,例如比較不同干預措施在相同人群中的療效差異,或比較相同干預措施對不同人群的療效差異,其結果除了以定量與定性數據表達外,通常還需要結合統計學檢驗進行分析。采用PICOS原則可進一步將研究問題轉化為更為具體化、結構化的研究假設,從而使后續研究方案設計更具針對性[17]。
在正式開展研究之前,還應當對現有文獻進行系統檢索并全面回顧、了解既往研究能否全面回答或是部分回答當前的研究問題。這不僅有助于調整、優化研究問題及研究假設,更能為研究者提供關于研究變量的重要信息,例如何種變量的作用或價值已被充分闡明,何種變量已有研究提及但尚未了解其全貌,以及何種變量還未曾有研究挖掘和加以探索。
2.2 病歷資料適用性
適用性是指數據滿足使用者需求的質量評價程度[18]。病歷資料具有真實世界數據的屬性(并非基于特定研究目的而記錄),因此RCR病歷資料適用性的評估具體可參考真實世界數據適用性的評價維度[19-20],通過相關性、完整性、準確性、一致性、合理性、時效性(即時性、準時性)、可及性等多個不同維度來評估病歷資料的適用性。與嚴格控制偏倚、記錄目的明確的RCT數據相比,病歷資料提取的數據存在一定程度的質量缺陷。例如選擇的研究樣本無法代表特定患者群體的特征,記錄的原始數據包含的關鍵研究變量信息不全,數據采集過程中系統誤差較大等。故對于病歷資料適用性的評估約等于評價RCR是否適合解決當前提出的研究問題。此外,在確定了RCR可以回答研究問題之后,為了確保結果具備足夠的精確度,還應進一步計算樣本量以評估病歷資料的數量能否滿足研究需求。
2.3 研究方案設計
2.3.1 設計類型
研究設計類型關乎后續方法學的具體運用,故應在研究方案設計階段首先明確。常用的設計類型包括回顧性隊列研究設計、病例-對照研究設計、橫斷面研究設計、病例系列研究設計、中斷時間序列設計以及相關的衍生設計類型,應當圍繞研究問題、研究假設以及病歷資料的適用性選擇適宜的設計類型。
2.3.2 研究變量
以醫療實踐為主要記錄內容的病歷資料信息通常敏感性與特異性較低,其中對于研究變量的描述,尤其是相對主觀的臨床癥狀,可能存在不一致甚至矛盾的情況[21]。以疼痛這一變量為例,其在病歷書寫中存在多種形式的表達,如手刺痛可被記錄為針扎樣不適感,頭脹痛可被記錄為自覺頭暈頭脹、難以忍受等,這與患者的表述及臨床醫師的書寫習慣均有一定關系。若在變量的識別上出現混淆,將直接影響后續的數據提取、分類等工作。故在研究設計階段,必須預先明確并定義研究變量,并制訂包含各變量定義和編碼的指南或操作手冊等標準化文件以進一步規范研究變量的識別過程[11]。
2.3.3 研究樣本
考慮到數據質量問題,RCR中的納入和排除標準要求通常遠低于RCT,但對研究目標人群及變量特征的詳細界定仍必不可少,同時還應盡可能地識別并排除混雜因素以確保樣本人群可以代表總體人群的特征情況[3]。隨機抽樣是規避各種偏倚以提高研究內部真實性的重要手段,研究者應盡可能確保所有合格的個體病例在隨機抽樣時被選中的概率相同,同時繪制流程圖以詳細闡述確定研究樣本的完整過程,內容應包括:① 基線特征描述;② 排除病例數量及具體理由;③ 合格病例數量及具體隨機抽樣方法;④ 最終納入的研究樣本量。此外,需對已納入或排除病例進行定期審查,以確保標準實施的準確性。
2.3.4 試點研究
對于樣本量較大或提取變量數據繁雜的RCR而言,還應在正式研究開展前通過試點研究(一般為正式研究樣本量的10%)以提前評估研究方案的科學性及可行性。其作用主要有5個方面:① 進一步確定病歷資料及抽樣方法的適用性;② 形成對數據質量(完整度、準確度、全面度)的初步認識;③ 測試納入/排除標準對于確定研究目標人群的合理性和有效性;④ 提前發現數據提取過程中可能出現的問題并制訂對應的處理預案;⑤ 評估數據的內部一致性,即采集的數據是否真實、可靠。
2.4 倫理許可
盡管RCR僅圍繞已有的病歷資料,而非針對患者群體本身開展研究,但在各醫療記錄或管理文件中可能包含患者的敏感信息,因此仍需要通過研究實施機構的倫理委員會批準。通常僅在同時符合下列兩種情況時可以申請豁免倫理審查:① 病歷資料獲取來源公開;② 以匿名方式記錄的信息無法直接或(通過標識符)間接地暴露患者個人信息[3]。當超出以上范圍,尤其是研究方案中存在侵犯患者隱私和(或)違反研究相關保密條款的風險時,則需要對病歷資料進行嚴格的內容審查,并在獲得倫理許可后方能開展正式研究。
2.5 數據收集
2.5.1 數據提取
數據提取是RCR實施過程中最易產生偏倚的環節,而偏倚主要來源于數據提取者與數據提取工具兩個方面。首先,就數據提取的人選而言,由于數據提取者通常來自于研究團隊內部,其作為系統接受過醫學教育的專業人員(如醫生、護士、藥師、醫學生等),在了解研究背景及研究目的/假設的情況下,極易在提取過程中有意識或潛意識地選擇有利于證明研究假設的變量數據(暴露懷疑偏倚);而若是選擇沒有醫學教育背景的人員提取數據,則可能無法識別專業的醫學術語或錯誤地解讀原始記錄,從而導致無法找到特定信息或提取錯誤信息(測量偏倚)。因此,在理想狀態下,應當由不直接參與研究設計及數據統計分析的醫學專業人員進行數據提取,并在研究目的/假設及患者組別分配(當研究存在兩組及以上患者的比較時)上對其實施盲法,同時開發、應用能夠維持穩定盲態的方法[9, 22]。當設盲不可行時,替代方案為分配不同的數據提取者獨立提取不同的變量集,如一位負責提取人口統計學特征、既往史、用藥史等基線變量,而另一位負責提取治愈率、死亡率、生存率等結局變量。此外,定期開展數據提取標準化的統一培訓是進一步減少測量偏倚的重要手段。培訓內容應當包括提取變量的準確識別方法、結構化的操作步驟以及相關培訓手冊/指南應用的講解等[1, 5]。其次,缺乏標準化的數據提取工具還可能造成嚴重的錯分偏倚,尤其當原始記錄中的信息模棱兩可或前后矛盾時。處理對策為采用具有實時監測、提醒功能的電子數據收集系統或是統一規范的病例報告表以最大限度地減少遺漏、模糊或錄入錯誤的數據[23]。同時,應在試點研究中測試其性能并盡可能地完善其不足之處。對于多中心的電子病歷數據庫、醫療保險數據庫等大型電子數據庫,可通過國際疾病分類編碼、自然語言處理(natural language processing,NLP)技術等識別目標疾病及抽取病歷信息。
除了可靠性與準確性,還需進一步關注數據一致性的問題。數據提取的一致性主要包含兩個方面:① 內部一致性,即同一數據提取者對于不同病歷資料中相同變量的提取差異程度;② 組間一致性,即不同數據提取者對于相同病歷資料中相同變量的提取情況差異程度[2]。對于兩種一致性的檢驗,前者可采用克朗巴哈系數分析,后者則可采用Kappa一致性檢驗[24]。理想狀態下,采用系統評價的數據提取模式(雙人獨立提取+第三方共同協商以解決分歧)能夠確保最佳的數據提取質量。但受限于人力、物力,往往難以實施。對于數據提取者較多的多中心RCR而言,若不對數據提取的組間一致性進行檢驗,可能無法分辨不同中心之間的結果差異是源于各中心樣本自身的差異還是數據提取過程因不一致性所致的差異。一致性的評價既可以在預先開展的試點研究中進行,也可以在正式研究過程中隨時對已有數據進行抽樣調查。盡管對于提取的數據需要到達何種程度的一致性尚無金標準,但對于最重要或易混淆的變量數據提取,研究者需要基于具體問題來共同討論并明確可接受的一致性程度或標準。例如采用Kappa一致性檢驗時,定義效應量Kappa值在大于0.85時可認為組間一致性較好。
2.5.2 數據處理
針對數據中的缺失部分還應進行統計學處理。缺失數據比例過大可能會造成嚴重的選擇偏倚,如果剔除大量不完整的個案數據而只分析小部分的完整數據集可能會導致錯誤結論。因此,若一個病歷數據庫中的研究變量信息缺失比例過大,則不建議采用此庫進行分析。研究方案中應預先確定針對缺失數據的具體處理方法,例如采用敏感性分析觀察缺失數據的影響;采用多重填補的方法處理缺失數據,最后綜合分析此類數據對于研究結果的影響等。
2.5.3 數據監察
對于數據收集時間較長的研究,可能出現準確性下降或者處理流程的變化。因此,還應對數據處理過程進行監察,例如定期比對病歷資料中的原始記錄以核驗已提取數據的準確性、檢查處理流程的規范程度等[22]。具體監察方案需由研究者提前制訂并嚴格實施,并定期與數據提取者溝通以解決過程中可能出現的問題及爭議[25]。
2.6 統計分析
具體的統計分析方法需視預先的研究設計而定,故不作為本文的重點在此展開討論。但仍然有以下兩個方面值得強調:① 在實施統計分析前,確保研究問題的定義明確,且相關的無效假設或備擇假設可以通過現有的統計方法檢驗;② 盡可能地構建一個完整、明晰的數據庫,并選擇便于將其直接導入并分析的統計軟件。具體統計分析的實操需由具備一定數理統計專業知識且不直接參與研究過程的人員負責。
2.7 結果解讀
病歷資料中的原始數據包含了多種復雜的主觀和客觀信息,盡管可以從多個角度盡可能地提高研究的方法學質量,但RCR相較于前瞻性研究仍不可避免地更易產生各種偏倚。參照Kaji等[9]繪制的有關RCR研究過程中可能產生偏倚的流程圖(圖3),即使是最為細微的偏倚在經過多個環節的逐步累積后也能使得研究結果的真實性大打折扣。因此,對于結果的解讀應當包含兩個方面:一方面應該結合現有研究背景,詳細分析其可能的價值及意義,例如對現存的研究領域空白做了何種程度的填補,或是為未來更深入的研究指明方向;另一方面對結論的表達及適用范圍需持謹慎態度,應盡可能地總結研究存在的局限性并在討論部分詳細闡明。

注:實線:真實結果;虛線:研究觀察結果。
2.8 研究報告規范
全面、透明地報告回顧性研究實施過程和結果對于識別研究的潛在偏倚和判斷結論的適用性至關重要。這不僅有助于讀者全面了解研究具體內容,更有助于對研究結果真實性和有效性的客觀評價。由于RCR的開展可以采用多種不同的設計類型,迄今為止尚缺少通用格式的報告規范或指南,但仍有部分指導性文獻可供參考。
《美國臨床藥學期刊》基于既往RCR的方法學質量,編制了一份包含10項報告要點的條目清單以提高相關研究結果的嚴謹性[26]。條目內容包括倫理許可、設計類型、研究場所/數據來源、研究問題及納入/排除標準、樣本人群、觀察基線、研究變量、樣本量估算和檢驗效能計算、數據收集、局限性討論。由于該清單的制定初衷在于提高方法學層面的標準化水平以提升研究質量和結論的嚴謹性,僅對與研究方案設計相關的4項條目做了強制性報告要求,因此盡管可適用于不同設計類型的RCR報告,卻無法全面覆蓋所有研究領域中RCR的報告信息要求,故其應用仍具有一定局限性。對于以流行病學調查為研究主題的RCR(如回顧性隊列研究、橫斷面研究等)而言,可采用加強觀察性流行病學研究報告的聲明(strengthening the reporting of observational studies in epidemiology statement,STROBE),即SREOBE聲明[27],其作為經典、實用性較強的流行病學研究報告規范可以有效促進該類型RCR報告質量的提升。而對于非臨床實踐、管理用途的常規收集衛生數據,如來自于疾病登記庫、公共衛生報告、醫療保險數據庫的數據,則可采用常規收集衛生數據開展觀察性研究的報告規范(report of studies conducted using observational routinely collected data,RECORD)[28]。RECORD規范可以視作為SREOBE聲明的擴展版,其在SREOBE聲明的基礎上,又進一步對作者提出了關于數據收集規范程度及適用性方面的報告要求。通過更為全面地總結研究結論的優勢、局限性和準確性,RECORD規范可以加強基于常規收集衛生數據開展的觀察性研究報告的透明度和完整性[14]。以上三者對于報告內容的側重點既有重合、也有不同,因此需根據具體RCR的設計及實施情況來具體分析并靈活選用。
3 結語
可視化分析表明RCR正日益受到臨床研究人員的青睞并廣泛開展于全球各地,然而通過方法學層面的回顧,提示僅通過無科研導向性的病歷資料而獲得的研究結論可能與真實情況存在不同程度的偏差。究其原因,同時也是RCR最難以克服的缺陷在于無法同RCT一樣提供“穩定、準確且可以復現”的研究數據[2],這在一定程度上影響了研究結論的穩健性和可靠性。既往有不同學者試圖為病歷資料的數據提取過程設立各類操作標準以提高研究質量[22, 29-31],但由于缺少統一的指導性文件而采納者寥寥、難以驗證其有效性,且隨著大型公共數據庫的不斷建立,在其適用性方面更是存疑[9]。迄今為止通用范式的RCR報告規范缺失更是進一步限制了研究的透明度,不利于結果的推廣應用。此外,RCR在國內的中文稱謂較為混亂,常代之以“病歷挖掘”、“病歷分析”、“病歷調查”之名,在研究名稱方面的不統一亦會影響具體方法學的規范運用,并可能使讀者對RCR的研究范式產生困惑與質疑。
盡管存在以上不足之處,RCR的獨特優勢和發展前景仍然無法掩蓋。首先就臨床實踐而言,當研究疾病為罕見病或難治性疾病時,綜合病歷資料獲取的難易程度及倫理因素的考量,都難以對此類疾病開展前瞻性的觀察性或干預性研究。尤其對于某些無法開展RCT或前瞻性隊列研究以獲取臨床數據的疾病而言,RCR是良好甚至是唯一能夠產生科學結論的研究形式。例如開展煙霧病的流行病學調查以及觀察不同基因表型對于患者結局的影響[32-33],分析Sagliker綜合征的顱面影像學特征[34],觀察不同治療方案下瓦爾登斯特倫巨球蛋白血癥患者的臨床結局[35],探討孕期寨卡病毒感染與先天性寨卡綜合征的關聯性等[36]。針對諸如新冠肺炎這樣的突發公共衛生事件,RCR亦有一席用武之地,例如有國內學者對新冠肺炎爆發前后兒童醫院住院病例的特征進行對比,以探討防疫政策及措施對于住院患兒疾病分布、類型和住院模式的影響[37]。而我國作為人口大國,在病例數量及種類方面具有開展RCR的天然優勢。其次在數據質量方面,隨著信息技術的發展,尤其是病歷記錄電子化、結構化和標準化程度的提高,原始數據的準確性、完整性及可追溯性亦隨之顯著提高。除了對原始信息的獲取、甄別乃至溯源上更為便捷、規范之外,甚至還可將相關量表及問卷嵌入、加載至醫院電子病歷系統中以備后續研究所需[38]。以上在數據來源方面的質量控制舉措無疑是對研究結論的臨床相關性和可靠性的實質性提升[39]。最后,機器學習技術、數據挖掘技術、NLP技術等新興人工智能技術可以在數據處理過程中發揮文字識別、數據分類、數據清洗等多重作用,從而顯著彌補人工提取在處理過程中的缺陷[40]。
總而言之,醫學的進步勢必會催生更多的研究問題,隨著方法學的不斷完善以及科研技術的持續發展,RCR在未來醫學研究進程中將發揮積極作用。
聲明 本研究不存在任何利益沖突。
病歷回顧性研究(retrospective chart review,RCR)是指基于現有的患者病歷信息或相關數據庫,通過數據提取、數據整理、統計分析等一系列研究流程以回答特定研究問題的一類回顧性研究[1-3]。作為RCR的主要數據來源,“病歷”的范圍有狹義與廣義之分。狹義上的“病歷”僅指記錄患者具體診療信息的相關文檔,如門診/住院病歷、護理記錄、會診記錄、檢驗/檢查報告、出入院報告等,故既往也稱之為病案回顧研究(medical record review,MRR)[2]。隨著電子信息技術的快速發展,基于患者醫療信息構建的電子數據庫,如臨床專病數據庫、醫療保險公司的病歷信息系統、各省(市、區)的醫療保障信息平臺等,也被納為RCR的數據來源,以開展諸如流行病學調查、醫療服務體系評估、醫療決策模型構建等多種實證研究[4-7],因此廣義上的“病歷”還包括源自于科研機構、醫療保險公司和(或)政府衛生部門的院外衛生保健檔案/報告等一切可獲得患者醫療信息的文件[2,8]。基于廣義上的概念,有學者指出,任何從醫療文件中提取信息的研究都可以歸類為RCR[9]。盡管此定義過于寬泛,但對于RCR的數據來源卻做出了相應界定,即任何記錄并留存的、與患者衛生保健相關的資料信息。
近年來,隨著醫療大數據的使用越來越規范和普遍,加之實施流程相對簡單、信息獲取成本較低,RCR在醫學研究領域中的應用日益廣泛[10-11]。僅在急診醫學研究領域中,通過RCR發表的期刊論文占比就可達25%~53%[9]。然而,現有RCR在設計、實施及報告方面的質量參差不齊,例如研究人群或研究變量選擇不恰當、研究設計不合理或實施流程不清晰、數據提取時產生較大偏倚、報告透明度欠佳等[3, 9],因而不同程度地影響了研究結果的科學性和真實性。本文對近5年收錄于科學引文索引(science citation index,SCI)的高質量RCR進行可視化分析以探索當前研究現狀及熱點,并進一步系統梳理了RCR的方法學內核,以期為未來的合理化、規范化研究提供指導與建議。
1 可視化分析
1.1 資料與方法
1.1.1 文獻檢索與篩選
計算機檢索Web of Science(WoS)數據庫核心合集,檢索策略為:Topic Search(主題檢索)=(retrospective chart review)OR(medical record review),檢索時間限制在2018年1月1日至2022年12月31日。通過閱讀文章標題與摘要,按照納入與排除標準來篩選合格文獻。納入標準為:① 明確說明研究數據來源于病歷資料;② 研究類型為實證研究且發表類型為期刊論文;③ 研究收錄于SCI并能通過WoS數據庫核心合集檢索獲得。排除標準為:① 發表類型為研究方案、會議論文、社論或評論;② 重復發表的文獻。
1.1.2 研究方法
將納入的文獻題錄以txt格式導出,并以“download_**.txt”命名后導入CiteSpace軟件(V6.1.R1)進行格式轉換[12]。設置時間跨度為2018―2022年,間隔為1年;主題詞來源默認全選;節點類型中“作者”、“機構”、“國家/地區”的閾值(Top N Per slice)設置為20,“關鍵詞”的閾值(Top N Per slice)設置為50。選擇路徑發現(pathfinder)、切片網絡剪枝(pruning sliced networks)、整體網絡剪枝(pruning the merged network)的圖譜剪切方式簡化網絡結構以突出重要結構特征,并采用聚類靜態(cluster view-static)和展示整體網絡(show merged network)的可視化方式呈現最終分析圖譜。
1.2 結果
1.2.1 納入研究的發文量特征
在WoS數據庫中共檢索出RCR相關文獻12 847篇,經去重、納入與排除標準篩選后,最終納入合格文獻9 260篇,其中2018年1 691篇,2019年1 700篇,2020年1 869篇,2021年2 173篇,2022年1 829篇。5年間的發文量總體上呈現逐年遞增的趨勢,但在2022年較前一年有所下滑。具體發文量變化趨勢見附件圖1。
1.2.2 國家/地區與機構合作網絡分析
國家/地區合作網絡圖譜(附件圖2)共獲得25個節點,25條連線,網絡密度0.083 3。結果顯示,發文量排名前20位的國家/地區分別為美國、加拿大、中國、韓國、澳大利亞、日本、德國、沙特阿拉伯、意大利、英格蘭、以色列、印度、土耳其、法國、瑞士、荷蘭、泰國、西班牙、南非、巴西;分屬于亞洲(8個)、歐洲(8個)、北美洲(2個)、南美洲(1個)、大洋洲(1個)、非洲(1個),在全球地理位置上的分布較為均勻。共現關系圖譜表明,歐洲諸國之間的合作最為普遍,其中西班牙是開展跨國合作研究最多和最為頻繁的國家。美國、中國、加拿大盡管在發文量上位居前三,但更傾向于開展本土化研究。
機構合作網絡圖譜(附件圖3)共獲得38個節點,38條連線,網絡密度0.054 1。結果顯示,發文量超過20篇的研究機構數量為38個,其中35個位于美國,2個位于加拿大,1個位于以色列。主流發文機構多為公立醫療機構、大學醫學院系或其附屬醫院。發文量排名前20位的機構見附件表1。發文量最多的研究機構是哈佛醫學院,且與其他機構存在最多的共現關系。整體來看,美國國內的研究機構間相互合作十分普遍,這也是其發文量獨占鰲頭的重要原因之一。
1.2.3 作者合作網絡分析
作者合作網絡圖譜(附件圖4)共獲得215個節點、228條連線,網絡密度為0.009 9。節點越大代表該作者的發文量越多;連線表示作者的共現關系,線條越粗代表兩者的合作越緊密;紫色、藍色、綠色、黃色、紅色依次代表2018—2022年中的各個自然年。結果顯示,5年來發文量最多的作者為Moon,累計發表期刊論文12篇;累計發文量排名前10位的作者均發表了不少于8篇的論文數量,具體見附件表2。圖譜的可視化分析表明,中高產作者間存在較為緊密的合作關系,并形成了多個具有一定規模的研究團隊。但此類團隊的核心成員最多為8名,并且共同合作的年數不超過3年。此外,節點、連線比例與低網絡密度表明,不同的研究團隊間幾乎未見合作關系,提示各團隊的研究領域或方向重疊性極低。
1.2.4 關鍵詞共現分析
關鍵詞共現網絡圖譜(附件圖5)共獲得80個節點、200條連線,網絡密度為0.063 3。節點大小代表關鍵詞的出現頻次,連線粗細表示表示共現關系強度,線的顏色表示對應節點第一次共現時間,兩者聯合可以在一定程度上呈現出研究領域中的熱點。結果顯示,出現頻次超過100的關鍵詞有42個,其中排名前20位的關鍵詞見附件表3。圖譜的可視化分析表明,高頻次關鍵詞間存在相當緊密的聯系,結合中心度可將RCR的研究熱點總結為以下三類:① 疾病治療/干預措施的管理、并發癥、結局與隨訪情況(關鍵詞:therapy、surgery、guideline、management、complication、outcome、follow up);② 疾病的流行病學特征、危險因素與預后(關鍵詞:risk factor、mortality、prevalence、epidemiology、infection、cancer、survival);③ 嬰幼兒/兒童/青少年(即未成年人群)的患病風險、損傷特征與診斷(關鍵詞:infant、children、adolescent、age、disease、risk、injury、diagnosis)。依賴病歷資料中豐富、翔實的臨床信息,前兩類研究重點關注疾病本身,不僅僅是疾病的臨床特征,還囊括了從篩查、診斷、治療乃至預后的疾病發生、發展全過程;第三類則重點關注未成年人群在臨床中的特征性表現。
關鍵詞突現是指關鍵詞在短時間內的出現頻次顯著增加,通過對突現情況的分析可進一步探究研究熱點的起止時間及動態變化。以關鍵詞共現網絡為基礎,通過檢測關鍵詞突現情況進一步展示近5年來中國RCR的熱點變化及現狀(附件圖6)。從時間線來看,從2018年到2021年,各自涌現出一批不同的研究熱點。結合研究內容綜合分析,epidemiology、risk、risk factor、association等多個起止于不同時間點的突現關鍵詞表明,疾病的流行病學研究始終是近年來的最大熱點,而診斷與預后研究同樣備受關注;研究疾病方面,癌癥作為突現強度最大的具體病種關鍵詞,體現出我國研究人員對其的關注度高;研究人群方面,與全球范圍內的研究熱點一致,兒童亦是我國RCR的熱門研究對象;手術、療效分別是研究熱度最高的干預措施和結局指標。
1.2.5 關鍵詞聚類分析
通過log-likelihood ratio(LLR)算法對關鍵詞共現網絡進行聚類分析。最終形成了9個聚類標簽,模塊化Q=0.787,平均輪廓S=0.950,代表聚類結構顯著且結果可信度高。主要針對聚類標簽中范圍較大且k值大于2的前4個核心聚類網絡進行分析,其中聚類大小與序號成反比(圖1)。第一類別children(#0)為最大聚類,包含了disease、risk、injury、pain、classification等高頻關鍵詞,主要圍繞兒童、嬰幼兒等未成年人群而開展不同主題的臨床回顧性研究。這可能由于從倫理角度和研究配合程度而言,未成年人群相較于成人更難于開展前瞻性的臨床研究,因此采用RCR可以彌補相關研究領域的空白。第二類別complication(#1)包含risk factor、mortality、infection、impact、bariatric surgery等高頻關鍵詞,主要采用RCR以探索臨床疾病或干預/治療手段引起的并發癥特征及相關危險因素、特定臨床結局。值得注意的是,COVID-19作為出現頻次較高的關鍵詞被歸入此類別,提示RCR作為一種回顧性研究,亦能針對新型冠狀病毒肺炎(以下簡稱為“新冠肺炎”)這樣的突發公共衛生事件而取得數量較為可觀的研究成果。第三類別palliative care(#2)包含cancer、quality of life、cost、depression、mental health、validation等高頻關鍵詞,主要通過RCR回顧性評價姑息治療對癌癥患者生活質量、心理健康狀況、治療費用等不同結局指標的影響及有效性。第四類別diagnosis(#3)包含prevalence、population、women、emergency department、symptom、feature等高頻關鍵詞,主要關注疾病在特定人群或特定地點中的臨床特征情況及對應診斷。

1.3 小結
2018―2022年間發表的高質量RCR具有以下特點:① 研究發文量較大,且廣泛開展于全球各地;② 除歐洲諸國外大多數國家更傾向于開展本土化研究,其中又以美國的研究數量為最,其機構間的合作關系也最為普遍和緊密,這可能與地理位置、國家人口、病歷資料獲取難易程度等多種客觀因素有關;③ RCR的研究團隊成員通常數量不多但相互合作關系穩定,且涉及的研究領域及方向十分繁雜,各研究團隊間幾乎無合作關系;④ 研究熱點可總結為三類:疾病治療/干預措施的管理、并發癥、結局和隨訪;疾病的流行病學特征、危險因素與預后;未成年人群的患病風險、損傷特征與診斷,其中我國的RCR研究熱點與全球范圍內的高度重合;⑤ 具體的研究領域主要集中于兒童人群、并發癥、姑息治療、疾病診斷等特定主題。
2 方法學芻議
美國食品藥品監督管理局(Food and Drug Administration,FDA)在《英格蘭醫學雜志》上發文指出:基于真實世界數據開展的真實世界研究,其產生的證據與“傳統”臨床隨機對照試驗(randomized controlled trial,RCT)證據的本質區別并非在于研究方法和研究設計,而在于獲取數據的背景環境[13]。即真實世界數據是指源于醫療機構、家庭或社區日常所收集的患者健康狀況和(或)診療及保健相關的數據,與科研機構通過諸多嚴格方法學限制而產生的數據具有本質區別[13]。RCR不施加額外干預,且所應用的數據均產生于研究開展之前、符合常規收集醫療衛生數據的定義,即基于臨床或管理目的、事先沒有針對特定研究目標而收集的一類數據[14],因此可以歸類為真實世界研究。然而,也正是由于研究數據來源于真實世界,在從病歷資料的原始信息中提取研究數據時,不可避免會存在諸多偏倚。例如,患者報告的信息有誤或是遺漏(回憶偏倚);負責記錄的醫護人員因疏忽或固有思維而漏記、少記信息(信息偏倚);研究者對原始記錄信息的解讀存在誤解而導致分類錯誤(錯分偏倚);對所提取數據的分析及結果解讀與真實情況存在偏差(報告偏倚)等。除此之外,還存在研究類型不適用或倫理考量缺失等問題。因此,部分研究受到了方法學層面的詬病。以下將通過歸納開展RCR的具體流程(圖2),芻議其在方法學層面需要考慮的問題及相應對策。

2.1 研究問題與假設
研究問題應當是基于現有知識或證據合理推導且需要進一步驗證的一個或一系列具體問題,其對研究設計及研究結果表達具有直接影響作用[15]。參考Morgan等[16]提出的分類框架,并結合應用現狀,可以將RCR的研究問題大致歸納為三類:① 描述性問題:為獲取現有或既往已發生事件/結局/特征而提出的問題,例如獲得現在或過去某一時點在某地區某種疾病的發病率/患病率,歸納、總結某一罕見疾病的實驗室及影像學特征性表現等,其結果通常以頻數、百分比、集中趨勢指標(均數、中位數)、離散程度指標(標準差、方差、四分位數間距)等進行報告并通過相應的圖片、表格形式來呈現;② 關聯性問題:為分析不同現象之間的關聯關系而提出的問題,例如確定暴露與結局間的因果關系,探索特定干預措施與患者結局變化的關聯程度等,其結果通常以相關系數或模型來呈現;③ 比較性問題:為比較不同自變量與因變量之間的關系而提出的問題,例如比較不同干預措施在相同人群中的療效差異,或比較相同干預措施對不同人群的療效差異,其結果除了以定量與定性數據表達外,通常還需要結合統計學檢驗進行分析。采用PICOS原則可進一步將研究問題轉化為更為具體化、結構化的研究假設,從而使后續研究方案設計更具針對性[17]。
在正式開展研究之前,還應當對現有文獻進行系統檢索并全面回顧、了解既往研究能否全面回答或是部分回答當前的研究問題。這不僅有助于調整、優化研究問題及研究假設,更能為研究者提供關于研究變量的重要信息,例如何種變量的作用或價值已被充分闡明,何種變量已有研究提及但尚未了解其全貌,以及何種變量還未曾有研究挖掘和加以探索。
2.2 病歷資料適用性
適用性是指數據滿足使用者需求的質量評價程度[18]。病歷資料具有真實世界數據的屬性(并非基于特定研究目的而記錄),因此RCR病歷資料適用性的評估具體可參考真實世界數據適用性的評價維度[19-20],通過相關性、完整性、準確性、一致性、合理性、時效性(即時性、準時性)、可及性等多個不同維度來評估病歷資料的適用性。與嚴格控制偏倚、記錄目的明確的RCT數據相比,病歷資料提取的數據存在一定程度的質量缺陷。例如選擇的研究樣本無法代表特定患者群體的特征,記錄的原始數據包含的關鍵研究變量信息不全,數據采集過程中系統誤差較大等。故對于病歷資料適用性的評估約等于評價RCR是否適合解決當前提出的研究問題。此外,在確定了RCR可以回答研究問題之后,為了確保結果具備足夠的精確度,還應進一步計算樣本量以評估病歷資料的數量能否滿足研究需求。
2.3 研究方案設計
2.3.1 設計類型
研究設計類型關乎后續方法學的具體運用,故應在研究方案設計階段首先明確。常用的設計類型包括回顧性隊列研究設計、病例-對照研究設計、橫斷面研究設計、病例系列研究設計、中斷時間序列設計以及相關的衍生設計類型,應當圍繞研究問題、研究假設以及病歷資料的適用性選擇適宜的設計類型。
2.3.2 研究變量
以醫療實踐為主要記錄內容的病歷資料信息通常敏感性與特異性較低,其中對于研究變量的描述,尤其是相對主觀的臨床癥狀,可能存在不一致甚至矛盾的情況[21]。以疼痛這一變量為例,其在病歷書寫中存在多種形式的表達,如手刺痛可被記錄為針扎樣不適感,頭脹痛可被記錄為自覺頭暈頭脹、難以忍受等,這與患者的表述及臨床醫師的書寫習慣均有一定關系。若在變量的識別上出現混淆,將直接影響后續的數據提取、分類等工作。故在研究設計階段,必須預先明確并定義研究變量,并制訂包含各變量定義和編碼的指南或操作手冊等標準化文件以進一步規范研究變量的識別過程[11]。
2.3.3 研究樣本
考慮到數據質量問題,RCR中的納入和排除標準要求通常遠低于RCT,但對研究目標人群及變量特征的詳細界定仍必不可少,同時還應盡可能地識別并排除混雜因素以確保樣本人群可以代表總體人群的特征情況[3]。隨機抽樣是規避各種偏倚以提高研究內部真實性的重要手段,研究者應盡可能確保所有合格的個體病例在隨機抽樣時被選中的概率相同,同時繪制流程圖以詳細闡述確定研究樣本的完整過程,內容應包括:① 基線特征描述;② 排除病例數量及具體理由;③ 合格病例數量及具體隨機抽樣方法;④ 最終納入的研究樣本量。此外,需對已納入或排除病例進行定期審查,以確保標準實施的準確性。
2.3.4 試點研究
對于樣本量較大或提取變量數據繁雜的RCR而言,還應在正式研究開展前通過試點研究(一般為正式研究樣本量的10%)以提前評估研究方案的科學性及可行性。其作用主要有5個方面:① 進一步確定病歷資料及抽樣方法的適用性;② 形成對數據質量(完整度、準確度、全面度)的初步認識;③ 測試納入/排除標準對于確定研究目標人群的合理性和有效性;④ 提前發現數據提取過程中可能出現的問題并制訂對應的處理預案;⑤ 評估數據的內部一致性,即采集的數據是否真實、可靠。
2.4 倫理許可
盡管RCR僅圍繞已有的病歷資料,而非針對患者群體本身開展研究,但在各醫療記錄或管理文件中可能包含患者的敏感信息,因此仍需要通過研究實施機構的倫理委員會批準。通常僅在同時符合下列兩種情況時可以申請豁免倫理審查:① 病歷資料獲取來源公開;② 以匿名方式記錄的信息無法直接或(通過標識符)間接地暴露患者個人信息[3]。當超出以上范圍,尤其是研究方案中存在侵犯患者隱私和(或)違反研究相關保密條款的風險時,則需要對病歷資料進行嚴格的內容審查,并在獲得倫理許可后方能開展正式研究。
2.5 數據收集
2.5.1 數據提取
數據提取是RCR實施過程中最易產生偏倚的環節,而偏倚主要來源于數據提取者與數據提取工具兩個方面。首先,就數據提取的人選而言,由于數據提取者通常來自于研究團隊內部,其作為系統接受過醫學教育的專業人員(如醫生、護士、藥師、醫學生等),在了解研究背景及研究目的/假設的情況下,極易在提取過程中有意識或潛意識地選擇有利于證明研究假設的變量數據(暴露懷疑偏倚);而若是選擇沒有醫學教育背景的人員提取數據,則可能無法識別專業的醫學術語或錯誤地解讀原始記錄,從而導致無法找到特定信息或提取錯誤信息(測量偏倚)。因此,在理想狀態下,應當由不直接參與研究設計及數據統計分析的醫學專業人員進行數據提取,并在研究目的/假設及患者組別分配(當研究存在兩組及以上患者的比較時)上對其實施盲法,同時開發、應用能夠維持穩定盲態的方法[9, 22]。當設盲不可行時,替代方案為分配不同的數據提取者獨立提取不同的變量集,如一位負責提取人口統計學特征、既往史、用藥史等基線變量,而另一位負責提取治愈率、死亡率、生存率等結局變量。此外,定期開展數據提取標準化的統一培訓是進一步減少測量偏倚的重要手段。培訓內容應當包括提取變量的準確識別方法、結構化的操作步驟以及相關培訓手冊/指南應用的講解等[1, 5]。其次,缺乏標準化的數據提取工具還可能造成嚴重的錯分偏倚,尤其當原始記錄中的信息模棱兩可或前后矛盾時。處理對策為采用具有實時監測、提醒功能的電子數據收集系統或是統一規范的病例報告表以最大限度地減少遺漏、模糊或錄入錯誤的數據[23]。同時,應在試點研究中測試其性能并盡可能地完善其不足之處。對于多中心的電子病歷數據庫、醫療保險數據庫等大型電子數據庫,可通過國際疾病分類編碼、自然語言處理(natural language processing,NLP)技術等識別目標疾病及抽取病歷信息。
除了可靠性與準確性,還需進一步關注數據一致性的問題。數據提取的一致性主要包含兩個方面:① 內部一致性,即同一數據提取者對于不同病歷資料中相同變量的提取差異程度;② 組間一致性,即不同數據提取者對于相同病歷資料中相同變量的提取情況差異程度[2]。對于兩種一致性的檢驗,前者可采用克朗巴哈系數分析,后者則可采用Kappa一致性檢驗[24]。理想狀態下,采用系統評價的數據提取模式(雙人獨立提取+第三方共同協商以解決分歧)能夠確保最佳的數據提取質量。但受限于人力、物力,往往難以實施。對于數據提取者較多的多中心RCR而言,若不對數據提取的組間一致性進行檢驗,可能無法分辨不同中心之間的結果差異是源于各中心樣本自身的差異還是數據提取過程因不一致性所致的差異。一致性的評價既可以在預先開展的試點研究中進行,也可以在正式研究過程中隨時對已有數據進行抽樣調查。盡管對于提取的數據需要到達何種程度的一致性尚無金標準,但對于最重要或易混淆的變量數據提取,研究者需要基于具體問題來共同討論并明確可接受的一致性程度或標準。例如采用Kappa一致性檢驗時,定義效應量Kappa值在大于0.85時可認為組間一致性較好。
2.5.2 數據處理
針對數據中的缺失部分還應進行統計學處理。缺失數據比例過大可能會造成嚴重的選擇偏倚,如果剔除大量不完整的個案數據而只分析小部分的完整數據集可能會導致錯誤結論。因此,若一個病歷數據庫中的研究變量信息缺失比例過大,則不建議采用此庫進行分析。研究方案中應預先確定針對缺失數據的具體處理方法,例如采用敏感性分析觀察缺失數據的影響;采用多重填補的方法處理缺失數據,最后綜合分析此類數據對于研究結果的影響等。
2.5.3 數據監察
對于數據收集時間較長的研究,可能出現準確性下降或者處理流程的變化。因此,還應對數據處理過程進行監察,例如定期比對病歷資料中的原始記錄以核驗已提取數據的準確性、檢查處理流程的規范程度等[22]。具體監察方案需由研究者提前制訂并嚴格實施,并定期與數據提取者溝通以解決過程中可能出現的問題及爭議[25]。
2.6 統計分析
具體的統計分析方法需視預先的研究設計而定,故不作為本文的重點在此展開討論。但仍然有以下兩個方面值得強調:① 在實施統計分析前,確保研究問題的定義明確,且相關的無效假設或備擇假設可以通過現有的統計方法檢驗;② 盡可能地構建一個完整、明晰的數據庫,并選擇便于將其直接導入并分析的統計軟件。具體統計分析的實操需由具備一定數理統計專業知識且不直接參與研究過程的人員負責。
2.7 結果解讀
病歷資料中的原始數據包含了多種復雜的主觀和客觀信息,盡管可以從多個角度盡可能地提高研究的方法學質量,但RCR相較于前瞻性研究仍不可避免地更易產生各種偏倚。參照Kaji等[9]繪制的有關RCR研究過程中可能產生偏倚的流程圖(圖3),即使是最為細微的偏倚在經過多個環節的逐步累積后也能使得研究結果的真實性大打折扣。因此,對于結果的解讀應當包含兩個方面:一方面應該結合現有研究背景,詳細分析其可能的價值及意義,例如對現存的研究領域空白做了何種程度的填補,或是為未來更深入的研究指明方向;另一方面對結論的表達及適用范圍需持謹慎態度,應盡可能地總結研究存在的局限性并在討論部分詳細闡明。

注:實線:真實結果;虛線:研究觀察結果。
2.8 研究報告規范
全面、透明地報告回顧性研究實施過程和結果對于識別研究的潛在偏倚和判斷結論的適用性至關重要。這不僅有助于讀者全面了解研究具體內容,更有助于對研究結果真實性和有效性的客觀評價。由于RCR的開展可以采用多種不同的設計類型,迄今為止尚缺少通用格式的報告規范或指南,但仍有部分指導性文獻可供參考。
《美國臨床藥學期刊》基于既往RCR的方法學質量,編制了一份包含10項報告要點的條目清單以提高相關研究結果的嚴謹性[26]。條目內容包括倫理許可、設計類型、研究場所/數據來源、研究問題及納入/排除標準、樣本人群、觀察基線、研究變量、樣本量估算和檢驗效能計算、數據收集、局限性討論。由于該清單的制定初衷在于提高方法學層面的標準化水平以提升研究質量和結論的嚴謹性,僅對與研究方案設計相關的4項條目做了強制性報告要求,因此盡管可適用于不同設計類型的RCR報告,卻無法全面覆蓋所有研究領域中RCR的報告信息要求,故其應用仍具有一定局限性。對于以流行病學調查為研究主題的RCR(如回顧性隊列研究、橫斷面研究等)而言,可采用加強觀察性流行病學研究報告的聲明(strengthening the reporting of observational studies in epidemiology statement,STROBE),即SREOBE聲明[27],其作為經典、實用性較強的流行病學研究報告規范可以有效促進該類型RCR報告質量的提升。而對于非臨床實踐、管理用途的常規收集衛生數據,如來自于疾病登記庫、公共衛生報告、醫療保險數據庫的數據,則可采用常規收集衛生數據開展觀察性研究的報告規范(report of studies conducted using observational routinely collected data,RECORD)[28]。RECORD規范可以視作為SREOBE聲明的擴展版,其在SREOBE聲明的基礎上,又進一步對作者提出了關于數據收集規范程度及適用性方面的報告要求。通過更為全面地總結研究結論的優勢、局限性和準確性,RECORD規范可以加強基于常規收集衛生數據開展的觀察性研究報告的透明度和完整性[14]。以上三者對于報告內容的側重點既有重合、也有不同,因此需根據具體RCR的設計及實施情況來具體分析并靈活選用。
3 結語
可視化分析表明RCR正日益受到臨床研究人員的青睞并廣泛開展于全球各地,然而通過方法學層面的回顧,提示僅通過無科研導向性的病歷資料而獲得的研究結論可能與真實情況存在不同程度的偏差。究其原因,同時也是RCR最難以克服的缺陷在于無法同RCT一樣提供“穩定、準確且可以復現”的研究數據[2],這在一定程度上影響了研究結論的穩健性和可靠性。既往有不同學者試圖為病歷資料的數據提取過程設立各類操作標準以提高研究質量[22, 29-31],但由于缺少統一的指導性文件而采納者寥寥、難以驗證其有效性,且隨著大型公共數據庫的不斷建立,在其適用性方面更是存疑[9]。迄今為止通用范式的RCR報告規范缺失更是進一步限制了研究的透明度,不利于結果的推廣應用。此外,RCR在國內的中文稱謂較為混亂,常代之以“病歷挖掘”、“病歷分析”、“病歷調查”之名,在研究名稱方面的不統一亦會影響具體方法學的規范運用,并可能使讀者對RCR的研究范式產生困惑與質疑。
盡管存在以上不足之處,RCR的獨特優勢和發展前景仍然無法掩蓋。首先就臨床實踐而言,當研究疾病為罕見病或難治性疾病時,綜合病歷資料獲取的難易程度及倫理因素的考量,都難以對此類疾病開展前瞻性的觀察性或干預性研究。尤其對于某些無法開展RCT或前瞻性隊列研究以獲取臨床數據的疾病而言,RCR是良好甚至是唯一能夠產生科學結論的研究形式。例如開展煙霧病的流行病學調查以及觀察不同基因表型對于患者結局的影響[32-33],分析Sagliker綜合征的顱面影像學特征[34],觀察不同治療方案下瓦爾登斯特倫巨球蛋白血癥患者的臨床結局[35],探討孕期寨卡病毒感染與先天性寨卡綜合征的關聯性等[36]。針對諸如新冠肺炎這樣的突發公共衛生事件,RCR亦有一席用武之地,例如有國內學者對新冠肺炎爆發前后兒童醫院住院病例的特征進行對比,以探討防疫政策及措施對于住院患兒疾病分布、類型和住院模式的影響[37]。而我國作為人口大國,在病例數量及種類方面具有開展RCR的天然優勢。其次在數據質量方面,隨著信息技術的發展,尤其是病歷記錄電子化、結構化和標準化程度的提高,原始數據的準確性、完整性及可追溯性亦隨之顯著提高。除了對原始信息的獲取、甄別乃至溯源上更為便捷、規范之外,甚至還可將相關量表及問卷嵌入、加載至醫院電子病歷系統中以備后續研究所需[38]。以上在數據來源方面的質量控制舉措無疑是對研究結論的臨床相關性和可靠性的實質性提升[39]。最后,機器學習技術、數據挖掘技術、NLP技術等新興人工智能技術可以在數據處理過程中發揮文字識別、數據分類、數據清洗等多重作用,從而顯著彌補人工提取在處理過程中的缺陷[40]。
總而言之,醫學的進步勢必會催生更多的研究問題,隨著方法學的不斷完善以及科研技術的持續發展,RCR在未來醫學研究進程中將發揮積極作用。
聲明 本研究不存在任何利益沖突。