正確使用盲法可以有效控制和減少臨床試驗過程中由于試驗參與人員主觀因素所引入的偏倚,但盲法失敗時反而會引入更大偏倚。因此,對涉及盲法的臨床試驗,有必要對其進行盲法質量評價。筆者對目前國際上盲法質量評價的相關文獻和方法進行了梳理總結,發現目前盲法質量評價尚未引起研究者的足夠重視,相關研究報道較少;更缺乏全面綜合的盲法評價方法和工具,對盲法評價時點也無統一意見。因此,有必要對盲法評價方法進行多方面的深入研究,并建議根據影響盲法實施的關鍵因素開發綜合的盲法評價量表,通過評估各關鍵因素的執行情況,確定研究的盲法風險和等級,便于更好地解釋和評估研究結果。
引用本文: 閆世艷, 何麗云, 劉保延. 隨機對照臨床試驗中盲法質量評價現狀. 中國循證醫學雜志, 2014, 14(5): 631-632. doi: 10.7507/1672-2531.20140104 復制
在臨床研究中,盲法(blinding)是指受試對象、試驗實施者和結局測量者均不知道受試對象分在何組,其目的是提高試驗的內部一致性,減少由于受試者、研究者或結局評價者等試驗參與人員的期望、偏見和信仰等主觀因素所導致的偏倚,進而提高研究質量。目前,盲法實施的主要過程是通過制作與試驗藥物一致的模擬劑,然后對試驗藥品與模擬劑根據事先確定的藥物編碼進行編盲,編盲后由于藥物外觀一致,就達到對研究者、受試者以及研究過程中其他參與人員施盲的目的。此外,研究過程中的分組隱蔽也是盲法實施過程中的關鍵,即除產生隨機分組的人員外,隨機分組的信息盡可能不被研究過程中的其他人員接觸到。而對于外科手術或針灸這樣的臨床研究,由于無法使研究者保持盲態,常采用使受試者和結局測量評價者保持盲態的方法。對一個研究而言,盲法需貫穿于整個臨床研究過程,因此很多因素可能會影響到盲法的成功實施,進而導致盲法失敗,導致偏倚。
目前,在隨機對照臨床試驗中,影響盲法質量的因素主要有模擬劑制作、藥品編盲、治療措施的某些特點、藥物的副作用或伴隨癥狀以及人員分工等。如在中醫藥的雙盲臨床試驗中,模擬劑的制作非常關鍵。由于中醫藥特有的氣味、顏色等,在制作模擬劑時必須在各方面盡量與治療藥物接近,不合格的模擬劑會增加泄盲風險。另外,由于中醫藥的特殊作用,不同治法的方劑在服用后可能會出現相應的伴隨癥狀或體征,如使用汗法治療疾病時,試驗組患者在服用后會出現發汗現象,而對照組如服用安慰劑則無發汗,這會導致研究者泄盲的風險增加。另外,使用安慰劑對照時,試驗組治療效應的出現也會增加研究者泄盲的風險。盲法失敗時,不僅難以起到應有的控制和減少偏倚的作用,反而會引入更大的偏倚,主要有:①沾染(contamination):當受試者發現自己在安慰劑組或對照組時,可能會在試驗外接受試驗處理而造成沾染。②干擾(co-intervention):當研究者知道受試者在安慰劑組或對照組時,可能會提供治療方案之外的有效干預。③事件報告偏倚(biased event reporting):當研究者或受試者知道自己在治療組時,可能會造成對癥狀體征的忽視或輕視以及對發生的輕微事件的忽略[1, 2]。因此,對于采用盲法的臨床試驗,有必要進行盲法評價來考察盲法實施的質量。盲法質量評估是偏倚風險評估的重要內容,本文將對國內外盲法質量評價的現狀進行分析總結。
1 國內外盲法質量評價相關報道
近年來,盲法質量評價已經引起研究者的重視,但該方面的研究報道較少。2004年以來有多篇文獻提到了盲法質量評價,其研究者認為盲法評價是一個難題,目前缺乏統一的定量的盲法質量評價方法[3-5]。CONSORT聲明指出,對于雙盲臨床試驗在報告研究結果時,必須明確給出盲法的實施過程,以判斷該研究的盲法實施情況[2]。在Cochrane Handbook中,在研究質量評價時也明確提出需要報告試驗實施和分析過程中對哪些人員實施了盲法,每個主要結局評價的盲法以及與盲法相關的偏倚風險[5],但對于具體的盲法評價方法和工具卻并未提及。
Fergusson等[4]對1998年1月1日至2001年10月1日發表在頂級醫學雜志(JAMA、NEJM、BMJ、Lancet和Ann Intern Med)和4個頂級精神病學雜志上的191篇隨機對照試驗進行評價,發現只有15篇文獻提供了盲法成功的證據;4篇對受試者或研究者或結局評價者進行了盲法評價。Hrobjartsson等[5]對2001年在Cochrane CENTRAL注冊和發表的雙盲隨機對照研究進行評價,共收集到1 599個研究,其中僅31個研究(2%)報告進行了盲法評價,其中報告盲法成功的14個,報告不確定的10個,研究者認為目前迫切需要提出盲法評價的方法學。Boutron等[6] 2005年檢索了MEDLINE、Cochrane Controlled Trials Register和Cochrane Method Register(2004年第1期)以及NEJM、JAMA、Lancet、Ann Intern Med和BMJ 2003年1~12月發表的文獻,結果發現,在篩選出的90篇隨機對照盲法文獻中,僅58篇評價了受試者的盲法,36篇評價了研究者的盲法,15篇評價了結局評價者的盲法。
目前我國尚無盲法評價方面的相關文獻發表,但關于中藥模擬劑的盲法評價已受到重視。王云飛等[7]曾以“十一五”國家支撐計劃《冠心病血運重建后中醫干預的臨床研究》用藥“冠心病方(協定)(免煎顆粒)”的模擬劑研制為例,運用盲法測試,由測試者獨立對模擬劑的外觀、顏色和氣味進行評價,再模擬臨床試驗進行評價打分,評價安慰劑的盲法。溫澤淮等[8]也曾采用同樣的方法對模擬劑的盲法進行了評價。但這些評價只關注了盲法實施過程中的模擬劑制作方面,并未全面地對整個研究的盲法質量進行評價。
2 盲法質量評價方法
目前,盲法的評價方法主要是通過研究者報告的盲法實施過程來評價的,即通過研究者文獻中對盲法實施細節的報告來判斷盲法的實施質量。但這種形式的主觀性較強,主要依賴于研究者報告[4],且無法進行定量評價。出于對盲法質量進行定量評價的需求,研究者更多采用直接提問法進行盲法評價[9, 10]。直接提問法是在病例報告表中設計一個問題,讓被盲對象如受試者或研究者猜測受試者被分配的組別,受試者可猜測自己分配的組別是試驗組、對照組或不確定,這樣就會得到一個2 × 3的表格,從而計算出每組猜測正確、猜測錯誤或不確定的比例,通過對該比例的分析來進行盲法質量評價[11]。LaRosa等[12]根據組別猜測的把握程度進一步又分為5個等級:強烈認為是試驗組、較有把握認為是試驗組、較有把握認為是對照組、強烈認為是對照組、不確定,這樣得到的就是一個2 × 5的表格。同樣是直接提問法,而Rees等[13]的關注卻不同,他們認為評價盲法更好的方法是對研究開始和結束時,組別猜測發生變化的那部分人進行內部比較,而不是進行猜測正確率的比較。
上述方法是目前文獻中報告的幾種盲法評價方法,通過上述方法可以得到猜中(猜測正確)比例,當猜中比例不高于概率時,一般就認為盲法是成功的。但實際上,即使盲法是成功的,每組被猜中的比例也不一定正好等于50%,且分配組別被猜中并不能與盲法質量劃等號,并不能代表盲法質量不高或泄盲[6]。因此,直接采用猜中比例來評價盲法質量是不適宜的,需要對其進行統計分析。對于直接提問法獲得的盲法數據,常有研究者錯誤地采用卡方檢驗、Kappa一致性檢驗等方法進行統計分析。BI指數(blinding index scale,BI)是目前專用的基于上述直接提問法得到的數據統計分析得出的盲法評價統計指標,通過指數的大小來判斷盲法的實施情況。BI指數是由Kappa系數變化而來。Kappa系數用于測量一致性,而BI指數則側重測量不一致性。BI指數對于每個猜測的答案都給予不同的權重,如猜測正確可能提示盲法失敗,設權重為0,猜測錯誤提示盲法可能成功,設權重為0.50~0.75,而回答“不確定”提示盲法成功,設權重為1。BI指數介于0~1之間,當所有受試者都猜測正確時,BI=0,代表完全沒有盲態,當所有受試者均回答“不確定”時,BI=1,代表完全盲態,0.5表示隨機盲態(random blinding,即50%猜測正確,50%猜測錯誤),如果BI的95%可信區間上限<0.5,則認為該研究的盲法不完善。反之,則無充分證據認為盲法不完善[10]。在BI指數中,因為主要測量“不確定”,因此一個重要的假定就是受試者回答的“不確定”確實是不確定,而非有偏倚或為了避免做決定而做出的回答。因此,此時研究者鼓勵受試者誠實回答他們的猜測很重要[14]。
然而在實際臨床試驗中,試驗組和對照組的盲法情況往往可能出現數量上甚至方向上的差異,即兩組的盲態情況可能不一致,甚至相反。James等[10]提出的BI指數是綜合了兩組盲態數據的指標,因而難以區分出各組自身的盲態情況。兩組盲態方向相反時,綜合后可能掩蓋其實際情況而導致錯誤的結論,且該方法也無法得到隨機機遇水平之外(random chance level)的非盲受試者所占的比例。除盲法的可靠性和有效性之外,有多少受試者的盲法被識破也是研究者關注的問題。因而Bang等[9]于2004年提出了新的BI指數,可以計算出各組的盲態情況,且可直接理解為每組的盲法被識破的比例。與James的BI指數相比,新的BI指數是計算各組內部猜測正確率和猜測錯誤率的差別,而排除了“不確定”的情況,因為認為“不確定”與猜測錯誤一樣,都是反映盲法成功。新的BI指數實際上是分別計算每組的非盲受試者所占的比例,并進行統計檢驗。該指數介于-1和1之間,0表示盲態成功,猜測的正確率處于隨機水平。BI指數為正,表示盲法失敗,猜測正確率高于隨機水平;BI指數為負,表示盲法成功或盲法失敗但方向相反,即較多的受試者錯誤地認為自己接受的是相反的處理。新的BI指數通過每組中盲態可能出現的3種情況將整個研究的盲法情況劃分為9類。每組的3種可能情況為:隨機盲態(BI指數接近0)、泄盲(BI指數顯著>0)和反向猜測(opposite guess,BI指數顯著<0,如對照組的患者往往傾向于猜測自己是試驗組)。另外,Bang等[9]還建議對于BI也進行假設檢驗,以檢驗泄盲是由于主觀因素導致的還是內在的混雜因素。
因此,兩種BI指數其實各有長短,由于二者的理論基礎不同,無法進行比較。James等[10]認為“不確定”選項最為重要,而Bang’s BI指數則更多地將“不確定”和猜測錯誤歸為一類。在實際應用過程中可以結合使用。James’ BI指數可用于分析總體的盲法成功情況,而Bang’s BI指數則可用于評價每組的盲法狀態,并可根據每組的BI指數,將研究分為上述9類情況中的一類,并據此來估計每組的盲態情況。目前Stata軟件已開發了這兩種BI指數的計算模塊,并被研究者采用。但由于盲法評價尚未得到研究者重視,目前進行盲法評價的研究較少。然而,在進行盲法評價的文章中,BI指數已被一些研究者采用。經檢索PubMed發現,目前只有約10篇文章報告采用BI指數進行了盲法評價,主要集中在針灸的雙盲臨床研究,其中以Bang’s BI指數的應用較多[15-23]。
3 盲法評價對象和時點
盲法評價常對以下幾類關鍵的試驗參與人員進行:受試者、研究者、數據收集者、結局評價者和統計分析者。具體的盲法評價對象與研究設計時的被盲人員有關。除此之外,還有研究者指出,為更好地避免偏倚,應對撰寫報告者也保持盲態[14],可以避免發表偏倚。
除評價方法學缺乏外,研究者對盲法評價的時間點也有較多爭議,即是在研究開始前、研究早期、中期還是研究結束時進行盲法質量的評價。目前對此缺乏統一觀點。有研究者認為,研究早期的盲法成功并不能說明后期的盲法也是成功的,而中期的盲法評價則容易受治療效應或治療副作用發生后研究者直覺的影響[24, 25];研究結束時的盲法評價則可能是折中的,且易受治療結局的影響。有的研究者則認為,泄盲可能發生在研究過程中的任何時候,建議在研究結束時評價更合適[24, 26]。也有研究者認為,橫斷面上的盲法評價難以反映整個研究過程中的盲態情況,因此建議根據研究持續時間在研究過程中的不同時點進行盲法評價[27]。但Rees等[13]的研究表明,研究過程中進行6次和2次盲法評價的結果并無差異,而反復詢問反而會引起研究者或受試者的注意而導致泄盲和偏倚[13]。除上述觀點外,還有的研究者認為,無論是試驗過程中還是試驗結束后都無法判定盲法是否成功,需要在試驗開始之前采用志愿者進行一個專門的盲法評價研究[6, 28]。
因此,過分強調盲法評價的時點未免有些偏頗,建議應根據研究的具體情況,針對可能影響盲法的關鍵因素進行綜合評價。以安慰劑隨機對照試驗為例,可在以下階段進行盲法評價:首先,在研究開始之前進行安慰劑合格與否的評價;然后在研究早期針對整個研究流程進行盲法評價,及早發現可能導致泄盲的環節;最后在研究結束時,進行一個整體全面的盲法質量評價。
4 盲法質量評價中存在的問題
綜上所述,目前臨床試驗中盲法質量評價方面存在諸多問題。首先,盲法質量評價尚未引起研究者的足夠重視。現有的盲法臨床試驗中,很少對盲法質量進行評價,更沒有進行盲法質量可能導致偏倚風險的評估。其次,目前缺乏對盲法進行定量和定性評價的具體方法和工具,對于盲法評價的時間亦有較多爭議。現有的盲法評價方法主要基于對分配組別的猜中比例進行分析,不夠全面。同時,這些方法只著眼于研究實施過程中的盲法,未考慮其他可能影響盲法質量的因素。盲態的保持貫穿于整個研究過程中,研究過程中其他關鍵影響因素的考慮不周到或缺陷,都會影響到研究的盲態。因此,單純依靠分析猜中比例來進行盲法質量評價是不夠的。尤其是在安慰劑對照研究中,由于治療后期的療效差異可能導致治療組被猜中的比例增加,但并不能認為是盲法質量有問題。另外,即使研究過程中盲法實施很好,BI指數支持盲法成功,但在研究后期的數據管理過程中,如果人員分工不合理或盲底保存有問題,也可能會有申辦方或監查方接觸到盲底,同樣會導致嚴重的泄盲,這樣對研究的影響會更大。因此,若要全面評價盲法質量,需要對影響盲法質量的關鍵因素進行綜合評價,如安慰劑合格性評價、人員分工、藥品編盲過程的合理性等關鍵因素。基于上述觀點,亟需開發和研究新的適宜的盲法評價方法和工具,如全面綜合評價盲法質量的量表,該量表可根據整個研究過程中影響盲法質量的關鍵因素(安慰劑制作、藥品編盲、人員分工、藥物的副作用或伴隨癥狀等)的執行情況,根據量表得分情況將盲法質量劃分為不同等級,便于研究者對自身研究結果的盲法質量和風險進行評估,有助于研究結果的合理解釋,同時也有助于讀者和其他研究者更加客觀科學地了解研究結果和結論。目前,本課題組已著手開始相關研究。此外,由于盲法質量評價涉及的因素較多較廣,該方面還需要進一步深入研究。
在臨床研究中,盲法(blinding)是指受試對象、試驗實施者和結局測量者均不知道受試對象分在何組,其目的是提高試驗的內部一致性,減少由于受試者、研究者或結局評價者等試驗參與人員的期望、偏見和信仰等主觀因素所導致的偏倚,進而提高研究質量。目前,盲法實施的主要過程是通過制作與試驗藥物一致的模擬劑,然后對試驗藥品與模擬劑根據事先確定的藥物編碼進行編盲,編盲后由于藥物外觀一致,就達到對研究者、受試者以及研究過程中其他參與人員施盲的目的。此外,研究過程中的分組隱蔽也是盲法實施過程中的關鍵,即除產生隨機分組的人員外,隨機分組的信息盡可能不被研究過程中的其他人員接觸到。而對于外科手術或針灸這樣的臨床研究,由于無法使研究者保持盲態,常采用使受試者和結局測量評價者保持盲態的方法。對一個研究而言,盲法需貫穿于整個臨床研究過程,因此很多因素可能會影響到盲法的成功實施,進而導致盲法失敗,導致偏倚。
目前,在隨機對照臨床試驗中,影響盲法質量的因素主要有模擬劑制作、藥品編盲、治療措施的某些特點、藥物的副作用或伴隨癥狀以及人員分工等。如在中醫藥的雙盲臨床試驗中,模擬劑的制作非常關鍵。由于中醫藥特有的氣味、顏色等,在制作模擬劑時必須在各方面盡量與治療藥物接近,不合格的模擬劑會增加泄盲風險。另外,由于中醫藥的特殊作用,不同治法的方劑在服用后可能會出現相應的伴隨癥狀或體征,如使用汗法治療疾病時,試驗組患者在服用后會出現發汗現象,而對照組如服用安慰劑則無發汗,這會導致研究者泄盲的風險增加。另外,使用安慰劑對照時,試驗組治療效應的出現也會增加研究者泄盲的風險。盲法失敗時,不僅難以起到應有的控制和減少偏倚的作用,反而會引入更大的偏倚,主要有:①沾染(contamination):當受試者發現自己在安慰劑組或對照組時,可能會在試驗外接受試驗處理而造成沾染。②干擾(co-intervention):當研究者知道受試者在安慰劑組或對照組時,可能會提供治療方案之外的有效干預。③事件報告偏倚(biased event reporting):當研究者或受試者知道自己在治療組時,可能會造成對癥狀體征的忽視或輕視以及對發生的輕微事件的忽略[1, 2]。因此,對于采用盲法的臨床試驗,有必要進行盲法評價來考察盲法實施的質量。盲法質量評估是偏倚風險評估的重要內容,本文將對國內外盲法質量評價的現狀進行分析總結。
1 國內外盲法質量評價相關報道
近年來,盲法質量評價已經引起研究者的重視,但該方面的研究報道較少。2004年以來有多篇文獻提到了盲法質量評價,其研究者認為盲法評價是一個難題,目前缺乏統一的定量的盲法質量評價方法[3-5]。CONSORT聲明指出,對于雙盲臨床試驗在報告研究結果時,必須明確給出盲法的實施過程,以判斷該研究的盲法實施情況[2]。在Cochrane Handbook中,在研究質量評價時也明確提出需要報告試驗實施和分析過程中對哪些人員實施了盲法,每個主要結局評價的盲法以及與盲法相關的偏倚風險[5],但對于具體的盲法評價方法和工具卻并未提及。
Fergusson等[4]對1998年1月1日至2001年10月1日發表在頂級醫學雜志(JAMA、NEJM、BMJ、Lancet和Ann Intern Med)和4個頂級精神病學雜志上的191篇隨機對照試驗進行評價,發現只有15篇文獻提供了盲法成功的證據;4篇對受試者或研究者或結局評價者進行了盲法評價。Hrobjartsson等[5]對2001年在Cochrane CENTRAL注冊和發表的雙盲隨機對照研究進行評價,共收集到1 599個研究,其中僅31個研究(2%)報告進行了盲法評價,其中報告盲法成功的14個,報告不確定的10個,研究者認為目前迫切需要提出盲法評價的方法學。Boutron等[6] 2005年檢索了MEDLINE、Cochrane Controlled Trials Register和Cochrane Method Register(2004年第1期)以及NEJM、JAMA、Lancet、Ann Intern Med和BMJ 2003年1~12月發表的文獻,結果發現,在篩選出的90篇隨機對照盲法文獻中,僅58篇評價了受試者的盲法,36篇評價了研究者的盲法,15篇評價了結局評價者的盲法。
目前我國尚無盲法評價方面的相關文獻發表,但關于中藥模擬劑的盲法評價已受到重視。王云飛等[7]曾以“十一五”國家支撐計劃《冠心病血運重建后中醫干預的臨床研究》用藥“冠心病方(協定)(免煎顆粒)”的模擬劑研制為例,運用盲法測試,由測試者獨立對模擬劑的外觀、顏色和氣味進行評價,再模擬臨床試驗進行評價打分,評價安慰劑的盲法。溫澤淮等[8]也曾采用同樣的方法對模擬劑的盲法進行了評價。但這些評價只關注了盲法實施過程中的模擬劑制作方面,并未全面地對整個研究的盲法質量進行評價。
2 盲法質量評價方法
目前,盲法的評價方法主要是通過研究者報告的盲法實施過程來評價的,即通過研究者文獻中對盲法實施細節的報告來判斷盲法的實施質量。但這種形式的主觀性較強,主要依賴于研究者報告[4],且無法進行定量評價。出于對盲法質量進行定量評價的需求,研究者更多采用直接提問法進行盲法評價[9, 10]。直接提問法是在病例報告表中設計一個問題,讓被盲對象如受試者或研究者猜測受試者被分配的組別,受試者可猜測自己分配的組別是試驗組、對照組或不確定,這樣就會得到一個2 × 3的表格,從而計算出每組猜測正確、猜測錯誤或不確定的比例,通過對該比例的分析來進行盲法質量評價[11]。LaRosa等[12]根據組別猜測的把握程度進一步又分為5個等級:強烈認為是試驗組、較有把握認為是試驗組、較有把握認為是對照組、強烈認為是對照組、不確定,這樣得到的就是一個2 × 5的表格。同樣是直接提問法,而Rees等[13]的關注卻不同,他們認為評價盲法更好的方法是對研究開始和結束時,組別猜測發生變化的那部分人進行內部比較,而不是進行猜測正確率的比較。
上述方法是目前文獻中報告的幾種盲法評價方法,通過上述方法可以得到猜中(猜測正確)比例,當猜中比例不高于概率時,一般就認為盲法是成功的。但實際上,即使盲法是成功的,每組被猜中的比例也不一定正好等于50%,且分配組別被猜中并不能與盲法質量劃等號,并不能代表盲法質量不高或泄盲[6]。因此,直接采用猜中比例來評價盲法質量是不適宜的,需要對其進行統計分析。對于直接提問法獲得的盲法數據,常有研究者錯誤地采用卡方檢驗、Kappa一致性檢驗等方法進行統計分析。BI指數(blinding index scale,BI)是目前專用的基于上述直接提問法得到的數據統計分析得出的盲法評價統計指標,通過指數的大小來判斷盲法的實施情況。BI指數是由Kappa系數變化而來。Kappa系數用于測量一致性,而BI指數則側重測量不一致性。BI指數對于每個猜測的答案都給予不同的權重,如猜測正確可能提示盲法失敗,設權重為0,猜測錯誤提示盲法可能成功,設權重為0.50~0.75,而回答“不確定”提示盲法成功,設權重為1。BI指數介于0~1之間,當所有受試者都猜測正確時,BI=0,代表完全沒有盲態,當所有受試者均回答“不確定”時,BI=1,代表完全盲態,0.5表示隨機盲態(random blinding,即50%猜測正確,50%猜測錯誤),如果BI的95%可信區間上限<0.5,則認為該研究的盲法不完善。反之,則無充分證據認為盲法不完善[10]。在BI指數中,因為主要測量“不確定”,因此一個重要的假定就是受試者回答的“不確定”確實是不確定,而非有偏倚或為了避免做決定而做出的回答。因此,此時研究者鼓勵受試者誠實回答他們的猜測很重要[14]。
然而在實際臨床試驗中,試驗組和對照組的盲法情況往往可能出現數量上甚至方向上的差異,即兩組的盲態情況可能不一致,甚至相反。James等[10]提出的BI指數是綜合了兩組盲態數據的指標,因而難以區分出各組自身的盲態情況。兩組盲態方向相反時,綜合后可能掩蓋其實際情況而導致錯誤的結論,且該方法也無法得到隨機機遇水平之外(random chance level)的非盲受試者所占的比例。除盲法的可靠性和有效性之外,有多少受試者的盲法被識破也是研究者關注的問題。因而Bang等[9]于2004年提出了新的BI指數,可以計算出各組的盲態情況,且可直接理解為每組的盲法被識破的比例。與James的BI指數相比,新的BI指數是計算各組內部猜測正確率和猜測錯誤率的差別,而排除了“不確定”的情況,因為認為“不確定”與猜測錯誤一樣,都是反映盲法成功。新的BI指數實際上是分別計算每組的非盲受試者所占的比例,并進行統計檢驗。該指數介于-1和1之間,0表示盲態成功,猜測的正確率處于隨機水平。BI指數為正,表示盲法失敗,猜測正確率高于隨機水平;BI指數為負,表示盲法成功或盲法失敗但方向相反,即較多的受試者錯誤地認為自己接受的是相反的處理。新的BI指數通過每組中盲態可能出現的3種情況將整個研究的盲法情況劃分為9類。每組的3種可能情況為:隨機盲態(BI指數接近0)、泄盲(BI指數顯著>0)和反向猜測(opposite guess,BI指數顯著<0,如對照組的患者往往傾向于猜測自己是試驗組)。另外,Bang等[9]還建議對于BI也進行假設檢驗,以檢驗泄盲是由于主觀因素導致的還是內在的混雜因素。
因此,兩種BI指數其實各有長短,由于二者的理論基礎不同,無法進行比較。James等[10]認為“不確定”選項最為重要,而Bang’s BI指數則更多地將“不確定”和猜測錯誤歸為一類。在實際應用過程中可以結合使用。James’ BI指數可用于分析總體的盲法成功情況,而Bang’s BI指數則可用于評價每組的盲法狀態,并可根據每組的BI指數,將研究分為上述9類情況中的一類,并據此來估計每組的盲態情況。目前Stata軟件已開發了這兩種BI指數的計算模塊,并被研究者采用。但由于盲法評價尚未得到研究者重視,目前進行盲法評價的研究較少。然而,在進行盲法評價的文章中,BI指數已被一些研究者采用。經檢索PubMed發現,目前只有約10篇文章報告采用BI指數進行了盲法評價,主要集中在針灸的雙盲臨床研究,其中以Bang’s BI指數的應用較多[15-23]。
3 盲法評價對象和時點
盲法評價常對以下幾類關鍵的試驗參與人員進行:受試者、研究者、數據收集者、結局評價者和統計分析者。具體的盲法評價對象與研究設計時的被盲人員有關。除此之外,還有研究者指出,為更好地避免偏倚,應對撰寫報告者也保持盲態[14],可以避免發表偏倚。
除評價方法學缺乏外,研究者對盲法評價的時間點也有較多爭議,即是在研究開始前、研究早期、中期還是研究結束時進行盲法質量的評價。目前對此缺乏統一觀點。有研究者認為,研究早期的盲法成功并不能說明后期的盲法也是成功的,而中期的盲法評價則容易受治療效應或治療副作用發生后研究者直覺的影響[24, 25];研究結束時的盲法評價則可能是折中的,且易受治療結局的影響。有的研究者則認為,泄盲可能發生在研究過程中的任何時候,建議在研究結束時評價更合適[24, 26]。也有研究者認為,橫斷面上的盲法評價難以反映整個研究過程中的盲態情況,因此建議根據研究持續時間在研究過程中的不同時點進行盲法評價[27]。但Rees等[13]的研究表明,研究過程中進行6次和2次盲法評價的結果并無差異,而反復詢問反而會引起研究者或受試者的注意而導致泄盲和偏倚[13]。除上述觀點外,還有的研究者認為,無論是試驗過程中還是試驗結束后都無法判定盲法是否成功,需要在試驗開始之前采用志愿者進行一個專門的盲法評價研究[6, 28]。
因此,過分強調盲法評價的時點未免有些偏頗,建議應根據研究的具體情況,針對可能影響盲法的關鍵因素進行綜合評價。以安慰劑隨機對照試驗為例,可在以下階段進行盲法評價:首先,在研究開始之前進行安慰劑合格與否的評價;然后在研究早期針對整個研究流程進行盲法評價,及早發現可能導致泄盲的環節;最后在研究結束時,進行一個整體全面的盲法質量評價。
4 盲法質量評價中存在的問題
綜上所述,目前臨床試驗中盲法質量評價方面存在諸多問題。首先,盲法質量評價尚未引起研究者的足夠重視。現有的盲法臨床試驗中,很少對盲法質量進行評價,更沒有進行盲法質量可能導致偏倚風險的評估。其次,目前缺乏對盲法進行定量和定性評價的具體方法和工具,對于盲法評價的時間亦有較多爭議。現有的盲法評價方法主要基于對分配組別的猜中比例進行分析,不夠全面。同時,這些方法只著眼于研究實施過程中的盲法,未考慮其他可能影響盲法質量的因素。盲態的保持貫穿于整個研究過程中,研究過程中其他關鍵影響因素的考慮不周到或缺陷,都會影響到研究的盲態。因此,單純依靠分析猜中比例來進行盲法質量評價是不夠的。尤其是在安慰劑對照研究中,由于治療后期的療效差異可能導致治療組被猜中的比例增加,但并不能認為是盲法質量有問題。另外,即使研究過程中盲法實施很好,BI指數支持盲法成功,但在研究后期的數據管理過程中,如果人員分工不合理或盲底保存有問題,也可能會有申辦方或監查方接觸到盲底,同樣會導致嚴重的泄盲,這樣對研究的影響會更大。因此,若要全面評價盲法質量,需要對影響盲法質量的關鍵因素進行綜合評價,如安慰劑合格性評價、人員分工、藥品編盲過程的合理性等關鍵因素。基于上述觀點,亟需開發和研究新的適宜的盲法評價方法和工具,如全面綜合評價盲法質量的量表,該量表可根據整個研究過程中影響盲法質量的關鍵因素(安慰劑制作、藥品編盲、人員分工、藥物的副作用或伴隨癥狀等)的執行情況,根據量表得分情況將盲法質量劃分為不同等級,便于研究者對自身研究結果的盲法質量和風險進行評估,有助于研究結果的合理解釋,同時也有助于讀者和其他研究者更加客觀科學地了解研究結果和結論。目前,本課題組已著手開始相關研究。此外,由于盲法質量評價涉及的因素較多較廣,該方面還需要進一步深入研究。