糖尿病視網膜病變(DR)是糖尿病患者的常見并發癥,致盲率高,在給社會帶來經濟負擔的同時,嚴重威脅患者的生活質量。圍繞DR治療效果的臨床研究是當前的熱點領域,但在開展臨床研究之前,我們應當首先做好科學的研究設計。隨機對照試驗(RCT)被認為是循證醫學的金標準,但其同樣存在局限性,研究結論應用于實際臨床工作之前仍需客觀辯證的解讀。真實世界研究(RWS)可彌合RCT與臨床實踐的距離,同時具有數據易于獲取、節省資源和時間等優勢,能夠較快得出結果。但RWS也面臨無標準化數據源和易受混雜偏倚影響的挑戰。在DR的RWS中,標準化單病種數據庫能夠提供廣泛的數據來源,傾向性評分匹配方法能夠降低混雜偏倚的影響。
引用本文: 孫曉東, 賈慧珣. 糖尿病視網膜病變臨床研究設計的思考:從隨機對照試驗到真實世界研究. 中華眼底病雜志, 2019, 35(2): 111-114. doi: 10.3760/cma.j.issn.1005-1015.2019.02.001 復制
糖尿病視網膜病變(DR)是常見的糖尿病慢性并發癥,已成為導致工作人群失明的主要原因之一[1]。國際衛生組織數據顯示,2025年將有1/3的糖尿病患者發展為DR[2]。這給社會帶來經濟負擔的同時,也嚴重威脅患者的生活質量,因此開展改善DR治療的臨床研究是當前熱點領域。依據《“十三五”國家科技創新規劃》的部署,強調以醫學創新為主體,重點布局強化臨床研究[3]。盡管我國是糖尿病大國,但既往DR研究偏向重基礎、輕臨床,長期缺乏中國DR的臨床循證產出。當前DR的研究模式已逐漸從 “from bench to bench”轉為“from bench to bedside”,即研究內容來源于臨床,研究成果回歸于臨床。日常診療工作的目標是關注DR病患個體,而臨床研究的目標是改善DR群體,二者高度統一。高質量的臨床循證證據對提升DR疾病的診療具有積極意義,醫生要在臨床研究中充分發揮主體作用,如何通過有效的臨床研究設計,產生DR臨床治療新的證據與理論是值得思考的問題。隨機對照臨床試驗(RCT)和真實世界研究(RWS)是臨床研究的兩種主要設計方法,各有優勢,綜合考慮可構成循證醫學的完整證據鏈。
1 “金標準”RCT
長期以來,RCT在新藥研發和藥物評審中發揮重要作用。RCT是公認的臨床研究金標準,通過隨機化消除混雜因素對療效的影響,即除干預措施外,試驗組和對照組的其他特征都均衡可比,確定的因果關聯可信度高,處于循證醫學的金字塔上端[4]。正是源于多項RCT的循證證據,奠定了抗VEGF藥物在DR治療領域的領先地位[5-7]。
1.1 “火眼金睛”客觀解讀RCT
RCT結論的證據級別雖然高,但對于RCT的結論也不可盲目全盤接受,需要客觀理性的解讀RCT結果。一項Ⅲ期RCT(Protocol T研究)對比阿柏西普與貝伐單抗、雷珠單抗3種藥物治療糖尿病黃斑水腫(DME)患者的療效,結果顯示在總體意向性(ITT)分析中,相對于貝伐單抗和雷珠單抗,阿柏西普可獲得具有統計學差異的視力改善[8]。Protocol T研究在設計時考慮到基線視力這一重要混雜因素并針對該因素進行分層隨機,亞組分析卻發現基線視力較好的人群并未從阿柏西普治療中得到更多獲益,ITT人群的獲益僅是源于基線視力較差(≤20/50)那部分患者的治療獲益。但值得注意的是,該研究主觀采用基線視力中位數作為亞組分割閾值,而非經過嚴謹的界值探索,并且未針對低基線視力亞組事先進行樣本量估算,因此無法保證結論的穩健性。正如所料,當Protocol T研究更長時間(2年)的隨訪結果得出時,在低視力亞組中阿柏西普并未將相對于雷珠單抗的獲益優勢延續下去[9]。這說明Protocol T研究中基線低視力亞組分析可能僅為探索性結果,尚需大規模研究進一步確證。
另一項治療DME的Ⅲ期RCT(Protocol I研究)結果顯示,在ITT分析中,相比于激光對照組,雷珠單抗可顯著改善DME患者視力,而曲安奈德對DME患者視力并無顯著改善[10]。但人工晶狀體眼患者亞組分析結果卻顯示曲安奈德與雷珠單抗對視力的提升并無顯著統計學差異。我們分析,出現亞組結果不支持ITT結果的原因很可能是曲安奈德的治療會誘發白內障,而低估了曲安奈德組在ITT人群中真實療效的表達。進一步的安全性分析結果顯示,曲安奈德組白內障手術發生率確實更高。此外,近期發表的一項日本單臂研究發現,與治療前相比,曲安奈德聯合白內障吸除手術可顯著改善視力,再一次驗證白內障因素會掩蓋曲安奈德真實療效的猜想[11]。在解讀RCT時,要尤為關注干預的療效是否能夠如實的反應。
1.2 RCT存在的局限
DR領域的RCT局限性也愈發凸顯:(1)DR屬于慢性病防控范疇,結局終點指標往往需要足夠長的隨訪時間,研究投入大、周期長,對RCT的管理提出更高要求[12]。剛起步的研究者很難開展DR的高質量RCT,一旦RCT質量無法保證,則結論的可靠性會大打折扣。(2)DR的RCT要求嚴格的入組/排除標準,年齡有限制(兒童/高齡排除)、血糖控制不佳、腎功能異常往往被排除在RCT之外,導致在真實的DR臨床實踐中,遇到這類特殊人群該不該給藥,療效/風險如何,均無法從RCT的循證證據中獲知。(3)RCT數據的收集是圍繞研究目的展開,RCT數據是在嚴格質控的條件下采集的,與真實診療數據間存在差別。(4)潛在的倫理學或醫患之間的爭議。綜上,DR的RCT存在高成本、高度選擇人群、真實臨床應用普適性低的局限。
2 RWS“助力”RCT
正是由于RCT存在上述的局限性,才推動了源于實用性臨床試驗的RWS的不斷發展。醫院電子病歷(EMR)提供DR的臨床實踐數據,能夠反映具有廣泛異質性DR患者的真實診療情況,是真實世界數據的重要組成部分,具有體量龐大、信息豐富的特點。DR的EMR數據資料是根據患者的具體病情和意愿給予治療措施,且注重對患者有益的結局治療。如能利用EMR數據開展RWS則可彌補RCT無法提供的證據,如真實診療中干預有效性的外推,和長期用藥安全性等,同時可節約大量經費和時間,并快速得出結論和成果。
2.1 標準化DR單病種數據庫是RWS開展的基礎
相對于RCT,雖然DR的真實EMR數據看似更易獲取,但開展RWS也同樣面臨挑戰,其根本原因在于EMR數據缺乏標準化,無法有效利用。我國醫療機構的信息系統長期各自為營,臨床EMR數據采集無統一規范,異質化嚴重,數據體量雖大但標準化程度低,成為RWS發展的掣肘。因此,要做DR高質量的RWS首先要提高建立標準化DR單病種數據庫的認識與投入。應用計算機技術對現有EMR數據進行開發和整合。簡單來說,是將各信息系統數據(包括門診系統、住院系統、影像系統、檢驗系統等)進行關聯,并在此基礎上對數據進行標準化和結構化預處理。即通過歸一化技術把相同意思的詞匯歸一成標準詞;通過結構化技術把文本轉化為標準字段。標準化DR單病種數據庫是在臨床診療與臨床研究之間搭建的“橋梁通道”,為高效開展RWS提供高質量數據源頭。
2.2 傾向性評分匹配(PSM)方法是解決RWS潛在偏倚的有效工具
真實數據不代表真實證據,EMR數據存在受混雜因素干擾的固有缺陷,同樣對研究設計和統計方法有科學嚴謹的需求。DR是一種與全身系統相關的復雜疾病,真實EMR數據非隨機分組,基線協變量分布不均衡(存在DR病變程度不同、病程不一、血糖控制不同、血壓差異等情況),在估計處理效應時會受多種混雜因素影響而產生偏倚,既往通常會采用分層分析、多元模型的方法校正混雜因素的影響,但是當協變量比較多的時候,傳統方法存在過度分層或者過度擬合的風險[13-14]。PSM方法以其出色處理混雜因素的能力在RWS中應用得越來越廣泛,其精髓是構造出一個“類RCT”研究設計(quasi-experimental designs),通過校正混雜因素的影響達到兩組基線均衡的目的。如果在組間存在差異,則可認為這種差異是干預因素造成的,而非基線因素導致。
PSM方法在心血管疾病和腫瘤研究中應用較為廣泛。例如PubMed檢索近十年腫瘤領域相關PSM臨床研究有3415篇,而眼底病PSM相關研究僅有23篇,提升空間巨大。PSM方法的核心思想在于將眾多混雜因素通過統計模型或機器學習方法凝練成一個“變量”——傾向值,然后將處理組和對照組中傾向值最為接近的個體進行配對,進而比較組間是否存在差異[15-16]。匹配均衡性可以采用配對對子間各個協變量的標準平均誤差進行衡量,標準平均誤差小于0.1表明匹配的效果較為理想[17]。研究表明,PSM方法相對于回歸分析、分層比較等傳統分析方法可有效平衡混雜偏倚,在估計RWS的處理效應時具有更高的準確性,使結論更可靠[18]。
3 小結
DR醫學診療的進步離不開臨床研究的推動。在充滿前景和挑戰的大數據時代,應充分意識到當下每一份來源于臨床的數據都可能對未來醫療決策、未來DR患者產生價值。RCT關注干預措施在理想條件下對DR產生的預期有效性結果——即“效力(efficacy)”的問題;而RWS關注實際診療中干預措施對DR患者的受益程度——即“效果(effectiveness)”的問題。后者是前者的進一步驗證及拓展。RCT與RWS既相對獨立,又相互驗證、補充,綜合考慮方能對某種干預措施得出全面、準確的評價。我國DR臨床研究者要充分發揮集體智慧和積極性,針對DR診治中的關鍵科學問題,綜合運用RCT和RWS的方法開展臨床研究,增加中國自己DR臨床循證證據的同時,提升我國DR診治的國際影響力。
糖尿病視網膜病變(DR)是常見的糖尿病慢性并發癥,已成為導致工作人群失明的主要原因之一[1]。國際衛生組織數據顯示,2025年將有1/3的糖尿病患者發展為DR[2]。這給社會帶來經濟負擔的同時,也嚴重威脅患者的生活質量,因此開展改善DR治療的臨床研究是當前熱點領域。依據《“十三五”國家科技創新規劃》的部署,強調以醫學創新為主體,重點布局強化臨床研究[3]。盡管我國是糖尿病大國,但既往DR研究偏向重基礎、輕臨床,長期缺乏中國DR的臨床循證產出。當前DR的研究模式已逐漸從 “from bench to bench”轉為“from bench to bedside”,即研究內容來源于臨床,研究成果回歸于臨床。日常診療工作的目標是關注DR病患個體,而臨床研究的目標是改善DR群體,二者高度統一。高質量的臨床循證證據對提升DR疾病的診療具有積極意義,醫生要在臨床研究中充分發揮主體作用,如何通過有效的臨床研究設計,產生DR臨床治療新的證據與理論是值得思考的問題。隨機對照臨床試驗(RCT)和真實世界研究(RWS)是臨床研究的兩種主要設計方法,各有優勢,綜合考慮可構成循證醫學的完整證據鏈。
1 “金標準”RCT
長期以來,RCT在新藥研發和藥物評審中發揮重要作用。RCT是公認的臨床研究金標準,通過隨機化消除混雜因素對療效的影響,即除干預措施外,試驗組和對照組的其他特征都均衡可比,確定的因果關聯可信度高,處于循證醫學的金字塔上端[4]。正是源于多項RCT的循證證據,奠定了抗VEGF藥物在DR治療領域的領先地位[5-7]。
1.1 “火眼金睛”客觀解讀RCT
RCT結論的證據級別雖然高,但對于RCT的結論也不可盲目全盤接受,需要客觀理性的解讀RCT結果。一項Ⅲ期RCT(Protocol T研究)對比阿柏西普與貝伐單抗、雷珠單抗3種藥物治療糖尿病黃斑水腫(DME)患者的療效,結果顯示在總體意向性(ITT)分析中,相對于貝伐單抗和雷珠單抗,阿柏西普可獲得具有統計學差異的視力改善[8]。Protocol T研究在設計時考慮到基線視力這一重要混雜因素并針對該因素進行分層隨機,亞組分析卻發現基線視力較好的人群并未從阿柏西普治療中得到更多獲益,ITT人群的獲益僅是源于基線視力較差(≤20/50)那部分患者的治療獲益。但值得注意的是,該研究主觀采用基線視力中位數作為亞組分割閾值,而非經過嚴謹的界值探索,并且未針對低基線視力亞組事先進行樣本量估算,因此無法保證結論的穩健性。正如所料,當Protocol T研究更長時間(2年)的隨訪結果得出時,在低視力亞組中阿柏西普并未將相對于雷珠單抗的獲益優勢延續下去[9]。這說明Protocol T研究中基線低視力亞組分析可能僅為探索性結果,尚需大規模研究進一步確證。
另一項治療DME的Ⅲ期RCT(Protocol I研究)結果顯示,在ITT分析中,相比于激光對照組,雷珠單抗可顯著改善DME患者視力,而曲安奈德對DME患者視力并無顯著改善[10]。但人工晶狀體眼患者亞組分析結果卻顯示曲安奈德與雷珠單抗對視力的提升并無顯著統計學差異。我們分析,出現亞組結果不支持ITT結果的原因很可能是曲安奈德的治療會誘發白內障,而低估了曲安奈德組在ITT人群中真實療效的表達。進一步的安全性分析結果顯示,曲安奈德組白內障手術發生率確實更高。此外,近期發表的一項日本單臂研究發現,與治療前相比,曲安奈德聯合白內障吸除手術可顯著改善視力,再一次驗證白內障因素會掩蓋曲安奈德真實療效的猜想[11]。在解讀RCT時,要尤為關注干預的療效是否能夠如實的反應。
1.2 RCT存在的局限
DR領域的RCT局限性也愈發凸顯:(1)DR屬于慢性病防控范疇,結局終點指標往往需要足夠長的隨訪時間,研究投入大、周期長,對RCT的管理提出更高要求[12]。剛起步的研究者很難開展DR的高質量RCT,一旦RCT質量無法保證,則結論的可靠性會大打折扣。(2)DR的RCT要求嚴格的入組/排除標準,年齡有限制(兒童/高齡排除)、血糖控制不佳、腎功能異常往往被排除在RCT之外,導致在真實的DR臨床實踐中,遇到這類特殊人群該不該給藥,療效/風險如何,均無法從RCT的循證證據中獲知。(3)RCT數據的收集是圍繞研究目的展開,RCT數據是在嚴格質控的條件下采集的,與真實診療數據間存在差別。(4)潛在的倫理學或醫患之間的爭議。綜上,DR的RCT存在高成本、高度選擇人群、真實臨床應用普適性低的局限。
2 RWS“助力”RCT
正是由于RCT存在上述的局限性,才推動了源于實用性臨床試驗的RWS的不斷發展。醫院電子病歷(EMR)提供DR的臨床實踐數據,能夠反映具有廣泛異質性DR患者的真實診療情況,是真實世界數據的重要組成部分,具有體量龐大、信息豐富的特點。DR的EMR數據資料是根據患者的具體病情和意愿給予治療措施,且注重對患者有益的結局治療。如能利用EMR數據開展RWS則可彌補RCT無法提供的證據,如真實診療中干預有效性的外推,和長期用藥安全性等,同時可節約大量經費和時間,并快速得出結論和成果。
2.1 標準化DR單病種數據庫是RWS開展的基礎
相對于RCT,雖然DR的真實EMR數據看似更易獲取,但開展RWS也同樣面臨挑戰,其根本原因在于EMR數據缺乏標準化,無法有效利用。我國醫療機構的信息系統長期各自為營,臨床EMR數據采集無統一規范,異質化嚴重,數據體量雖大但標準化程度低,成為RWS發展的掣肘。因此,要做DR高質量的RWS首先要提高建立標準化DR單病種數據庫的認識與投入。應用計算機技術對現有EMR數據進行開發和整合。簡單來說,是將各信息系統數據(包括門診系統、住院系統、影像系統、檢驗系統等)進行關聯,并在此基礎上對數據進行標準化和結構化預處理。即通過歸一化技術把相同意思的詞匯歸一成標準詞;通過結構化技術把文本轉化為標準字段。標準化DR單病種數據庫是在臨床診療與臨床研究之間搭建的“橋梁通道”,為高效開展RWS提供高質量數據源頭。
2.2 傾向性評分匹配(PSM)方法是解決RWS潛在偏倚的有效工具
真實數據不代表真實證據,EMR數據存在受混雜因素干擾的固有缺陷,同樣對研究設計和統計方法有科學嚴謹的需求。DR是一種與全身系統相關的復雜疾病,真實EMR數據非隨機分組,基線協變量分布不均衡(存在DR病變程度不同、病程不一、血糖控制不同、血壓差異等情況),在估計處理效應時會受多種混雜因素影響而產生偏倚,既往通常會采用分層分析、多元模型的方法校正混雜因素的影響,但是當協變量比較多的時候,傳統方法存在過度分層或者過度擬合的風險[13-14]。PSM方法以其出色處理混雜因素的能力在RWS中應用得越來越廣泛,其精髓是構造出一個“類RCT”研究設計(quasi-experimental designs),通過校正混雜因素的影響達到兩組基線均衡的目的。如果在組間存在差異,則可認為這種差異是干預因素造成的,而非基線因素導致。
PSM方法在心血管疾病和腫瘤研究中應用較為廣泛。例如PubMed檢索近十年腫瘤領域相關PSM臨床研究有3415篇,而眼底病PSM相關研究僅有23篇,提升空間巨大。PSM方法的核心思想在于將眾多混雜因素通過統計模型或機器學習方法凝練成一個“變量”——傾向值,然后將處理組和對照組中傾向值最為接近的個體進行配對,進而比較組間是否存在差異[15-16]。匹配均衡性可以采用配對對子間各個協變量的標準平均誤差進行衡量,標準平均誤差小于0.1表明匹配的效果較為理想[17]。研究表明,PSM方法相對于回歸分析、分層比較等傳統分析方法可有效平衡混雜偏倚,在估計RWS的處理效應時具有更高的準確性,使結論更可靠[18]。
3 小結
DR醫學診療的進步離不開臨床研究的推動。在充滿前景和挑戰的大數據時代,應充分意識到當下每一份來源于臨床的數據都可能對未來醫療決策、未來DR患者產生價值。RCT關注干預措施在理想條件下對DR產生的預期有效性結果——即“效力(efficacy)”的問題;而RWS關注實際診療中干預措施對DR患者的受益程度——即“效果(effectiveness)”的問題。后者是前者的進一步驗證及拓展。RCT與RWS既相對獨立,又相互驗證、補充,綜合考慮方能對某種干預措施得出全面、準確的評價。我國DR臨床研究者要充分發揮集體智慧和積極性,針對DR診治中的關鍵科學問題,綜合運用RCT和RWS的方法開展臨床研究,增加中國自己DR臨床循證證據的同時,提升我國DR診治的國際影響力。