整群隨機試驗設計是復雜干預的常見方案,本文主要介紹了整群隨機試驗的定義、常見的設計方案(完全隨機化和限制性隨機化,如分層隨機化和匹配隨機化)及其分析方法(一般統計分析方法,混合效應模型/多水平模型);另外還介紹了整群隨機試驗的樣本量估計、結果報告的一些注意事項及整群隨機試驗在臨床、社區研究中的應用。
引用本文: 陳新林, 莫傳偉, 徐謙, 劉鳳斌, 侯政昆, 丘振文, 李先濤. 整群隨機試驗的設計、統計分析方法及應用. 中國循證醫學雜志, 2015, 15(6): 741-744. doi: 10.7507/1672-2531.20150123 復制
復雜干預研究試驗中,研究對象的個體差異常常對群體(整群、組群)的結局指標評價造成影響。2013年,英國醫學研究理事會(Medical Research Council,MRC)在更新《復雜干預設計及評價框架》中,將整群隨機試驗設計(cluster randomized trials,group randomized trials)推薦為研究“復雜干預”的一種合適方法[1-3]。整群隨機試驗設計作為復雜干預的常見方案,對此本文主要介紹整群隨機試驗的設計、評價、應用及研究中的常見問題。
1 整群隨機試驗的定義和設計
整群隨機試驗又稱為群隨機試驗或組群隨機試驗。CONSORT指南將整群隨機試驗定義為由具有某些共同特征個體構成的整群(如家庭、社區等)而非單個體作為研究對象,采用隨機抽樣的方法(單純隨機、分層隨機等)將整個群體分配到不同處理組的試驗,基于整群作為研究對象進行干預、隨訪,比較不同處理組的效應[4, 5]。目前這種設計方案被推薦用于復雜干預研究中,也廣泛用于包括健康教育、健康行為、衛生保健制度等非治療性干預措施的評價中[5-7]。
整群隨機試驗的單位是多種多樣的,包括社區、家庭、學校、診所、工作場所等。整群隨機試驗包括兩個水平:群體水平(cluster level)和個體水平(individual level),這是其和傳統隨機對照試驗(RCT)的最大區別(見表 1)。這個特點決定了整群隨機試驗在設計、選擇研究對象、計算樣本量、數據分析等方面既要考慮個體水平,又要考慮群體水平。

整群隨機試驗適用于以下3種情況:① 干預措施影響整個整群,而非個體。例如使用當地電臺開展健康教育或健康促進活動,會對整個地區的人群造成影響。② 干預措施雖然針對個體,但會影響到整群中的其他人,即出現沾污(contamination)情況。例如開展減少吸煙的干預研究,參與減少吸煙干預的研究對象,會與社區的其他對象分享信息,從而影響其他對象的吸煙行為。③ 采用整群隨機試驗更加低廉和方便。
根據隨機化的方式,整群隨機試驗可分為完全隨機化(completely randomized)和限制性隨機化(restricted randomized)。試驗中使用哪種隨機化方案主要取決于:可用于隨機化的整群數量、整群之間的異質性程度及實現匹配的難度等。一般而言,整群數量越小,整群之間的變異度越大,實現匹配的難度越小,越適合使用限制性隨機化。
完全隨機化(簡單隨機化):整群按照簡單隨機方法分配到不同處理組。完全隨機化特別適合于整群數量較大的情況。如果整群數量較少,完全隨機化會導致基線特征資料的不均衡,從而影響最終結果。例如,印度尼西亞研究補充維生素A對1~5歲兒童呼吸道和腸道感染癥狀的改善情況,采用社區隨機,將450個村莊進行隨機分配,其中229個村莊為處理組,221個村莊為對照組[8]。
限制性隨機化:按照一定的基線特征(如社會經濟地位、地理位置、自然環境特征等)將整群進行分層或配對,然后在分層或配對基礎上隨機分配整群。限制性隨機化的主要目的是均衡各組的基線資料,特別是整群的樣本量大小不等時,分層或配對可確保各組的平衡,提高統計功效,更加容易得到有統計學差異的結論。限制性隨機化最常見的方式包括分層隨機化(stratified)和匹配隨機化(matched)。分層隨機化要求每層包括2個以上的整群;在每一層,按照簡單隨機化或區組隨機化的方法分配整群。分層隨機化可直接估計整群間的變異,計算組內相關系數(intra-class correlation coefficient,ICC),分離出整群效應、干預效應和層效應。例如美國4個城市24所學校開展的兒童和青少年心血管健康試驗(CATCH),就采用了分層隨機[9]。此外,匹配隨機化是分層隨機化的特殊例子,每層只包含2個整群,將匹配的2個整群隨機分配到不同組。但匹配隨機化主要存在以下問題:難于找到匹配的變量,一個整群退出研究影響匹配的另一個整群,難以估計組內相關系數等,這些都影響了它的應用。例如美國馬里蘭州的社區戒煙干預試驗(COMMIT)采用了配對設計,按照一般人口學資料進行匹配,匹配因素包括人口規模、年齡分布和人口狀況(種族、女性比例、年齡分布、教育分布、平均家庭收入水平),最終納入11對匹配的社區[10]。
2 整群隨機試驗效應評價的方法與模型
統計分析與評價是整群隨機試驗的重要組成部分。整群隨機試驗設計涉及到群體水平和個體水平,其分析評價方法也要涉及到這兩個水平。應該根據研究目的、設計方案、整群數量和每個整群的個體數,選擇合適的統計學分析方法。整群隨機試驗的評價模型主要包括一般統計分析方法、混合效應模型/多水平模型。
部分研究者采用一般的統計分析方法,如t檢驗、方差分析或卡方檢驗等直接用于分析整群隨機試驗的個體水平,但這種分析方法是錯誤的[11]。整群隨機試驗的統計分析必須考慮整群效應,否則求得的干預效應值可信區間太窄,增加高估統計學意義的概率,容易犯1類錯誤。因此,在調整整群體水平或個體水平協變量的基礎上,使用每個群的匯總數據(均數或比例)開展一般統計分析方法。匯總數據的分析方法容易實現,不需要使用專門的軟件。置換試驗提供了一種替代的非參數方法,已用于調整整群體水平或個體水平的協變量[12, 13]。
下面介紹一種簡單的群匯總統計方法。假設相同處理組的整群效應值(均數或對數比log-odds)是一致的,可用下面公式估計總效應值a:a=∑ωiai/∑ωi,其中ai是第i個整群的效應值,ωi是ai估計值方差的倒數,1/∑ωi為方差,這種方法經常用于Meta分析。處理組效應減去對照組得到效應的差值(治療效應),可采用簡單的t檢驗進行分析。
整群隨機試驗主要采用混合效應模型或多水平模型進行評價[6]。連續型變量的模型為:yij=β0+β1Xi+Zi+εij。其中,yij表示第i個整群第j個個體的數值,i、j分別表示整群和個體。β0為對照組整群的總均數。Xi為組別因素,Xi=1表示處理組,Xi=0表示對照組;β1為處理效應。Zi為第i個整群的獨立效應,表示每個整群偏離均數的隨機效應(整群效應),Zi服從正態分布,均值為0,方差為σZ2;εij為個體水平的獨立隨機誤差,服從正態分布,均值為0,方差為σ2 ε。群內相關系數表達為σZ2/(σZ2+σ2 ε)。如果考慮個體的變量也會對結果造成影響,可在方程右邊增加額外的協變量,如yij=β0+β1Xi+Zi+γizij+εij,zij表示第i個整群第j個個體的性別,γi表示第i個整群的性別估計值。
二分類變量的混合效應模型一般采用Logit變換,即在上述方程的左邊換成logit(πij)[14]。logit(πij)=β0+β1Xi+Zi+εij,πij=E(Yij|Xi,Zi),Yij是服從二分類的獨立分布,參數為πij。二分類變量也可以采用廣義線性方程(generalized estimating equation,GEE)進行分析[15]。
上述混合效應模型也存在一定不足,如難于計算可信區間、治療效應的可信區間過于狹窄[16]、整群效應難以滿足正態分布的假設等。因此,有必要采用其他方法來構建模型,如使用貝葉斯方法進行建模,可獲取處理效應合適的區間估計,可順利估計各個效應,如處理效應、整群效應等[17, 18]。
3 注意事項
整群隨機對照試驗的樣本量估計:與個體隨機對照試驗一樣,也要考慮資料的類型(計量資料、計數資料或生存時間等)、設計方案(分層、匹配設計)、干預組數等。例如估計完全隨機的整群隨機試驗(計數資料)的樣本量,除了要設定1類錯誤、2類錯誤,還需要知道不同處理方式的有效率、整群的平均樣本量,另外還要知道組內相關系數ICC。由于樣本量估計比較復雜,本部分內容將另行報道。
整群隨機試驗的報告:整群隨機試驗的報告有別于個體隨機試驗,報告質量的高低嚴重影響了整群隨機試驗結果的可信度及其推廣應用。為此,2001年,CONSORT工作組專門制定了整群隨機試驗的CONSORT指南[5, 19]。該指南包括了整群隨機試驗應該報告的22個條目清單,該指南同時推薦使用流程圖來顯示受試者從分配到最后分析的流程。整群隨機試驗的CONSORT指南在2010年得到更新[4]。現在很多雜志都遵循這個指南來審閱相關的研究。
4 整群隨機試驗用于臨床實證研究的現狀
整群隨機試驗在臨床實證研究中得到了廣泛使用,下面介紹幾個國內外成功應用的實例。
Kennedy等[20]為研究知識轉化策略(knowledge translation strategies)能否提高骨質疏松癥患者服用維生素D的效果,開展了以臨床照顧中心為單位的整群隨機對照試驗(ViDOS)。將加拿大安大略省納入40個有臨床醫師及藥店配套的長期照顧中心分為兩組,將21個中心隨機分配到治療組,19個中心分配到對照組,使用廣義估計方程分析收集的數據,結果發現知識轉化策略可以提高骨質疏松癥患者服用維生素D的效果。
沈敏學等[21]為研究營養與食品安全教育對改善4~6年級小學生知識、態度和行為的有效性,在我國西部2個國家級貧困縣以小學為單位,開展整群隨機試驗。一共抽取12所小學,隨機分成干預組(教學干預)和對照組,給予不同干預措施,采用廣義線性混合效應模型分析個體、整群水平的隨機效應及處理因素的固定效應。研究結果發現干預組在個體水平上的各項得分均高于對照組(P<0.05);在群組水平上知識與行為得分的前后變化均高于對照組,但態度得分變化差異較小。
楊進等[22]為研究在學校內進行傷寒副傷寒綜合干預的效果,選擇廣西傷寒副傷寒高發區全州縣為現場,采用整群隨機試驗方法,以學校為單位,根據整群的以往發病率、地理位置及性質(小學、中學、高中)分層配對,確定干預組分為19個整群(共13 563人),對照組為19個整群(共14 143人)。研究結果顯示整群隨機抽樣法應用于學校傷寒、副傷寒干預試驗研究,簡單易行。
5 討論
綜上所述,整群隨機試驗按照隨機化方案可分為完全隨機化和限制性隨機化。限制性隨機化最常見的方式包括分層隨機化和匹配隨機化。開展整群隨機試驗,應該根據可用于隨機化的整群數量,整群之間的異質性程度,實現匹配的難度來選擇隨機化方案。整群隨機試驗包括群體水平和個體水平,直接基于個體水平采用一般的統計方法進行分析是錯誤的。整群隨機試驗的分析要綜合考慮群體水平和個體水平,應選擇適合的模型進行分析,如混合效應模型、多水平模型或廣義線性方程等;當然也可以調整群體水平或個體水平協變量的基礎上,使用每個群的匯總數據(均數或比例)進行簡單分析。
基于整群隨機試驗的復雜性,應該根據研究目的、研究對象等選擇合適的設計方案,按照整群隨機試驗的方案及CONSORT報告指南開展研究,并選擇正確的統計方法對干預效果進行評價,我們期待整群隨機試驗在以后研究中得到重視及廣泛應用。
復雜干預研究試驗中,研究對象的個體差異常常對群體(整群、組群)的結局指標評價造成影響。2013年,英國醫學研究理事會(Medical Research Council,MRC)在更新《復雜干預設計及評價框架》中,將整群隨機試驗設計(cluster randomized trials,group randomized trials)推薦為研究“復雜干預”的一種合適方法[1-3]。整群隨機試驗設計作為復雜干預的常見方案,對此本文主要介紹整群隨機試驗的設計、評價、應用及研究中的常見問題。
1 整群隨機試驗的定義和設計
整群隨機試驗又稱為群隨機試驗或組群隨機試驗。CONSORT指南將整群隨機試驗定義為由具有某些共同特征個體構成的整群(如家庭、社區等)而非單個體作為研究對象,采用隨機抽樣的方法(單純隨機、分層隨機等)將整個群體分配到不同處理組的試驗,基于整群作為研究對象進行干預、隨訪,比較不同處理組的效應[4, 5]。目前這種設計方案被推薦用于復雜干預研究中,也廣泛用于包括健康教育、健康行為、衛生保健制度等非治療性干預措施的評價中[5-7]。
整群隨機試驗的單位是多種多樣的,包括社區、家庭、學校、診所、工作場所等。整群隨機試驗包括兩個水平:群體水平(cluster level)和個體水平(individual level),這是其和傳統隨機對照試驗(RCT)的最大區別(見表 1)。這個特點決定了整群隨機試驗在設計、選擇研究對象、計算樣本量、數據分析等方面既要考慮個體水平,又要考慮群體水平。

整群隨機試驗適用于以下3種情況:① 干預措施影響整個整群,而非個體。例如使用當地電臺開展健康教育或健康促進活動,會對整個地區的人群造成影響。② 干預措施雖然針對個體,但會影響到整群中的其他人,即出現沾污(contamination)情況。例如開展減少吸煙的干預研究,參與減少吸煙干預的研究對象,會與社區的其他對象分享信息,從而影響其他對象的吸煙行為。③ 采用整群隨機試驗更加低廉和方便。
根據隨機化的方式,整群隨機試驗可分為完全隨機化(completely randomized)和限制性隨機化(restricted randomized)。試驗中使用哪種隨機化方案主要取決于:可用于隨機化的整群數量、整群之間的異質性程度及實現匹配的難度等。一般而言,整群數量越小,整群之間的變異度越大,實現匹配的難度越小,越適合使用限制性隨機化。
完全隨機化(簡單隨機化):整群按照簡單隨機方法分配到不同處理組。完全隨機化特別適合于整群數量較大的情況。如果整群數量較少,完全隨機化會導致基線特征資料的不均衡,從而影響最終結果。例如,印度尼西亞研究補充維生素A對1~5歲兒童呼吸道和腸道感染癥狀的改善情況,采用社區隨機,將450個村莊進行隨機分配,其中229個村莊為處理組,221個村莊為對照組[8]。
限制性隨機化:按照一定的基線特征(如社會經濟地位、地理位置、自然環境特征等)將整群進行分層或配對,然后在分層或配對基礎上隨機分配整群。限制性隨機化的主要目的是均衡各組的基線資料,特別是整群的樣本量大小不等時,分層或配對可確保各組的平衡,提高統計功效,更加容易得到有統計學差異的結論。限制性隨機化最常見的方式包括分層隨機化(stratified)和匹配隨機化(matched)。分層隨機化要求每層包括2個以上的整群;在每一層,按照簡單隨機化或區組隨機化的方法分配整群。分層隨機化可直接估計整群間的變異,計算組內相關系數(intra-class correlation coefficient,ICC),分離出整群效應、干預效應和層效應。例如美國4個城市24所學校開展的兒童和青少年心血管健康試驗(CATCH),就采用了分層隨機[9]。此外,匹配隨機化是分層隨機化的特殊例子,每層只包含2個整群,將匹配的2個整群隨機分配到不同組。但匹配隨機化主要存在以下問題:難于找到匹配的變量,一個整群退出研究影響匹配的另一個整群,難以估計組內相關系數等,這些都影響了它的應用。例如美國馬里蘭州的社區戒煙干預試驗(COMMIT)采用了配對設計,按照一般人口學資料進行匹配,匹配因素包括人口規模、年齡分布和人口狀況(種族、女性比例、年齡分布、教育分布、平均家庭收入水平),最終納入11對匹配的社區[10]。
2 整群隨機試驗效應評價的方法與模型
統計分析與評價是整群隨機試驗的重要組成部分。整群隨機試驗設計涉及到群體水平和個體水平,其分析評價方法也要涉及到這兩個水平。應該根據研究目的、設計方案、整群數量和每個整群的個體數,選擇合適的統計學分析方法。整群隨機試驗的評價模型主要包括一般統計分析方法、混合效應模型/多水平模型。
部分研究者采用一般的統計分析方法,如t檢驗、方差分析或卡方檢驗等直接用于分析整群隨機試驗的個體水平,但這種分析方法是錯誤的[11]。整群隨機試驗的統計分析必須考慮整群效應,否則求得的干預效應值可信區間太窄,增加高估統計學意義的概率,容易犯1類錯誤。因此,在調整整群體水平或個體水平協變量的基礎上,使用每個群的匯總數據(均數或比例)開展一般統計分析方法。匯總數據的分析方法容易實現,不需要使用專門的軟件。置換試驗提供了一種替代的非參數方法,已用于調整整群體水平或個體水平的協變量[12, 13]。
下面介紹一種簡單的群匯總統計方法。假設相同處理組的整群效應值(均數或對數比log-odds)是一致的,可用下面公式估計總效應值a:a=∑ωiai/∑ωi,其中ai是第i個整群的效應值,ωi是ai估計值方差的倒數,1/∑ωi為方差,這種方法經常用于Meta分析。處理組效應減去對照組得到效應的差值(治療效應),可采用簡單的t檢驗進行分析。
整群隨機試驗主要采用混合效應模型或多水平模型進行評價[6]。連續型變量的模型為:yij=β0+β1Xi+Zi+εij。其中,yij表示第i個整群第j個個體的數值,i、j分別表示整群和個體。β0為對照組整群的總均數。Xi為組別因素,Xi=1表示處理組,Xi=0表示對照組;β1為處理效應。Zi為第i個整群的獨立效應,表示每個整群偏離均數的隨機效應(整群效應),Zi服從正態分布,均值為0,方差為σZ2;εij為個體水平的獨立隨機誤差,服從正態分布,均值為0,方差為σ2 ε。群內相關系數表達為σZ2/(σZ2+σ2 ε)。如果考慮個體的變量也會對結果造成影響,可在方程右邊增加額外的協變量,如yij=β0+β1Xi+Zi+γizij+εij,zij表示第i個整群第j個個體的性別,γi表示第i個整群的性別估計值。
二分類變量的混合效應模型一般采用Logit變換,即在上述方程的左邊換成logit(πij)[14]。logit(πij)=β0+β1Xi+Zi+εij,πij=E(Yij|Xi,Zi),Yij是服從二分類的獨立分布,參數為πij。二分類變量也可以采用廣義線性方程(generalized estimating equation,GEE)進行分析[15]。
上述混合效應模型也存在一定不足,如難于計算可信區間、治療效應的可信區間過于狹窄[16]、整群效應難以滿足正態分布的假設等。因此,有必要采用其他方法來構建模型,如使用貝葉斯方法進行建模,可獲取處理效應合適的區間估計,可順利估計各個效應,如處理效應、整群效應等[17, 18]。
3 注意事項
整群隨機對照試驗的樣本量估計:與個體隨機對照試驗一樣,也要考慮資料的類型(計量資料、計數資料或生存時間等)、設計方案(分層、匹配設計)、干預組數等。例如估計完全隨機的整群隨機試驗(計數資料)的樣本量,除了要設定1類錯誤、2類錯誤,還需要知道不同處理方式的有效率、整群的平均樣本量,另外還要知道組內相關系數ICC。由于樣本量估計比較復雜,本部分內容將另行報道。
整群隨機試驗的報告:整群隨機試驗的報告有別于個體隨機試驗,報告質量的高低嚴重影響了整群隨機試驗結果的可信度及其推廣應用。為此,2001年,CONSORT工作組專門制定了整群隨機試驗的CONSORT指南[5, 19]。該指南包括了整群隨機試驗應該報告的22個條目清單,該指南同時推薦使用流程圖來顯示受試者從分配到最后分析的流程。整群隨機試驗的CONSORT指南在2010年得到更新[4]。現在很多雜志都遵循這個指南來審閱相關的研究。
4 整群隨機試驗用于臨床實證研究的現狀
整群隨機試驗在臨床實證研究中得到了廣泛使用,下面介紹幾個國內外成功應用的實例。
Kennedy等[20]為研究知識轉化策略(knowledge translation strategies)能否提高骨質疏松癥患者服用維生素D的效果,開展了以臨床照顧中心為單位的整群隨機對照試驗(ViDOS)。將加拿大安大略省納入40個有臨床醫師及藥店配套的長期照顧中心分為兩組,將21個中心隨機分配到治療組,19個中心分配到對照組,使用廣義估計方程分析收集的數據,結果發現知識轉化策略可以提高骨質疏松癥患者服用維生素D的效果。
沈敏學等[21]為研究營養與食品安全教育對改善4~6年級小學生知識、態度和行為的有效性,在我國西部2個國家級貧困縣以小學為單位,開展整群隨機試驗。一共抽取12所小學,隨機分成干預組(教學干預)和對照組,給予不同干預措施,采用廣義線性混合效應模型分析個體、整群水平的隨機效應及處理因素的固定效應。研究結果發現干預組在個體水平上的各項得分均高于對照組(P<0.05);在群組水平上知識與行為得分的前后變化均高于對照組,但態度得分變化差異較小。
楊進等[22]為研究在學校內進行傷寒副傷寒綜合干預的效果,選擇廣西傷寒副傷寒高發區全州縣為現場,采用整群隨機試驗方法,以學校為單位,根據整群的以往發病率、地理位置及性質(小學、中學、高中)分層配對,確定干預組分為19個整群(共13 563人),對照組為19個整群(共14 143人)。研究結果顯示整群隨機抽樣法應用于學校傷寒、副傷寒干預試驗研究,簡單易行。
5 討論
綜上所述,整群隨機試驗按照隨機化方案可分為完全隨機化和限制性隨機化。限制性隨機化最常見的方式包括分層隨機化和匹配隨機化。開展整群隨機試驗,應該根據可用于隨機化的整群數量,整群之間的異質性程度,實現匹配的難度來選擇隨機化方案。整群隨機試驗包括群體水平和個體水平,直接基于個體水平采用一般的統計方法進行分析是錯誤的。整群隨機試驗的分析要綜合考慮群體水平和個體水平,應選擇適合的模型進行分析,如混合效應模型、多水平模型或廣義線性方程等;當然也可以調整群體水平或個體水平協變量的基礎上,使用每個群的匯總數據(均數或比例)進行簡單分析。
基于整群隨機試驗的復雜性,應該根據研究目的、研究對象等選擇合適的設計方案,按照整群隨機試驗的方案及CONSORT報告指南開展研究,并選擇正確的統計方法對干預效果進行評價,我們期待整群隨機試驗在以后研究中得到重視及廣泛應用。