為滿足證據使用者對定性系統評價的需要,有必要建立定性系統評價的證據分級系統。CERQual(Confidence in the Evidence from Reviews of Qualitative research)是為定性系統評價開發的證據分級工具。CERQual工具基于4個方面進行評價:①方法學局限性:指原始研究設計和實施中存在的問題,需借鑒定性研究方法學質量評價工具對納入研究進行評價;②相關性:指納入研究的研究目的、研究對象等方面與系統評價要解決問題的相符程度;③一致性:指合并結果與相應原始研究結果的相符程度;是否解釋了合并模型的合理性即原始研究結果間的差異;④數據充分性:針對某一系統評價結果,與其相關資料的豐富性和數量。最后綜合以上各部分的評價結果對系統評價單個結果給出信度分級——高、中、低、極低。本文將詳細介紹CERQual工具的具體內容,并舉例解釋如何應用。
引用本文: 拜爭剛, 劉少堃, 黃崇斐, 常健博, 曾憲濤, 王琪, 靳英輝, 陳耀龍, 楊克虎. 定性系統評價證據分級工具——CERQual簡介. 中國循證醫學雜志, 2015, 15(12): 1465-1470. doi: 10.7507/1672-2531.20150238 復制
1 背景
循證醫學誕生以來,越來越多的研究者意識到證據分級在循證實踐和知證決策方面的重要性 [1]。GRADE系統是當前證據質量和推薦強度分級的國際標準之一,被衛生領域的相關人員應用在定量系統評價、循證臨床指南以及衛生技術評估等方面。GRADE系統目前主要對干預性定量系統評價進行分級,并不適用于定性系統評價的分級。近年來,定性系統評價數量不斷增加 [2],且定量系統評價無法很好地提供關于干預措施可接受性和可推廣性的證據 [3],不能滿足研究者和決策者等證據使用者的需要 [4],因此建立定性系統評價的證據分級系統成為了一種必然。本文將介紹專門為定性系統評價證據開發的證據分級工具CERQual [5],并舉例解釋如何應用。
CERQual(Confidence in the Evidence from Reviews of Qualitative research)工具最早開發于2010年,由挪威知識轉化中心的Claire Glenton、Simon Lewin教授聯合Cochrane協作網、Campbell協作網、GRADE工作組和世界衛生組織(WHO)等國際相關機構制定的定性系統評價分級系統,旨在為國際指南小組使用定性系統評價證據提供支持。2010年,WHO制定了關于衛生工作者在圍產期角色轉化的指南(OPTIMIZEMNH)[6],主要探索如何使高水平的衛生工作者面向基層服務,以應對基層衛生工作者缺乏這一全球難題。由于涉及到工作群體的轉化,可接受性和可行性是影響干預措施有效性的重要因素,因此指南制定小組決定全面分析可接受性和可行性的證據,并制作了3個相關的定性系統評價 [7-9]。作為一項開創性的工作,該小組遇到了定性系統評價中納入的研究質量不一,結論互相矛盾,一些證據只來自特定地區或利益相關者的研究等問題,為分析這些因素對系統評價的影響,指南制定小組著手開發了針對定性系統評價證據的分級工具——CERQual [10]。
2 內容
對于同一研究問題,有不同類型和級別的研究證據,基于不同級別研究證據解決同一問題的效果不同,故有必要研發科學透明的證據分級和推薦系統 [11]。從某種意義上來說,針對定性系統評價的CERQual分級工具(圖 1)與定量系統評價的分級工具GEADE [12]具有相似性,兩者都旨在評價證據的信度(confidence),并用高、中、低、極低四個等級表示系統評價證據級別。CERQual分級工具與Goldsmith等 [13]研究使用的定性研究評價方法有相似之處,均為通過評估單個納入研究的方法學局限性、研究結果的一致性、相關性和數據充分性對定性系統評價總體質量進行分級。CERQual中的證據信度是指系統評價結果與所研究問題真實情況的相符程度。其評定的標準目前需要研究者自行確定,整個評價過程應當透明并呈現在系統評價總結表中。CERQual工具基于4個方面 [8]評價定性系統評價證據:① 方法學局限性(methodological limitations);② 相關性(relevance);③ 結果一致性(coherence);④ 數據充分性(adequacy of data)。下面將進行解釋。

2.1 方法學局限性
方法學局限性指原始研究設計和實施中存在的問題,需借鑒相關的定性研究方法學質量評價工具對每一個納入研究進行評價。“定性研究”范疇囊括大量的研究問題和多樣的研究設計。正如評價定量研究方法學質量時提出的問題一樣,評價定性研究方法學質量時,我們會提出同樣類型的問題。如,研究結果的效度有多大?研究結果準確度的變異性有多大?以及研究結果的應用范圍有多廣?然而,由于定性研究中研究問題和研究設計的多樣性,以及不同學科構建和評價定性研究的方法不同,不能簡單地將評價定量研究的方法應用到定性研究中。正因如此,研究者們已經致力于構建評價定性研究方法學質量的理論和方法,涵蓋了定量和定性研究者共同的關注點,并能有效地用于評價各種定性研究。
鑒于定性研究設計沒有證據等級之分,其方法學局限性應基于每一個研究的方法學優劣勢來評價。CERQual借鑒CASP(Critical Appraisal Skills Programme)[14]評價定性研究的方法學局限性,但不排除使用其他定性質量評價工具(如UKGCSRO [15])。因為系統評價的結果由眾多原始研究數據所支撐,所以評價方法學質量如何影響研究結果時,應考慮每一個納入研究的方法學局限性,并基于此給出方法學局限性的總體評價。當納入的原始研究具有重大的方法學缺陷時,系統評價結果的信度便會降低。原始研究的方法學局限性可能僅影響系統評價的某一特定結局指標,但對另一結果卻可能沒有影響。此部分的評價結果對系統評價的意義在于:當針對某個特定問題的系統評價所納入研究的方法學質量低時,表明需要開展更多關于此類問題的高質量原始研究或更清晰地報告所用的研究方法。
2.2 相關性
相關性指納入研究的研究目的、研究對象等與系統評價要解決問題的相符程度。一般情況下,定性系統評價的納入標準與研究問題相一致,因此納入研究的相關性較強。但是也有相關性較低的情況,可歸納為:① 間接相關,例如研究人們對禽流感的看法,但是由于缺乏相關研究,因此納入豬流感的相關研究;② 部分相關,例如研究歐洲地區幼兒園兒童的生活模式,但是只納入挪威地區的研究;③ 相關性不確定,即納入研究與定性系統評價需要解決的問題相關性不大,或者對相關性的解釋不明。當有以上情況出現時,系統評價結果的信度將會降低。
相關性的評價結果對系統評價有兩方面意義:① 相關性不強時,提示針對該研究問題需要在不同環境下開展更加多樣化的原始研究及對研究結果做出更好的報告;② 相關性不強也可能提示系統評價所關注的問題在特定環境下并不突出或非普遍現象。
2.3 一致性
一致性是指綜合結果與相應原始研究結果的相符程度及是否解釋了原始研究結果的差異。特定的合并模型要能夠通過原始研究提供的資料或者作者(原始研究或系統評價的作者)提出的假說來解釋。當原始研究中出現無關或反常的情況,不支持甚至與系統評價結果相悖,且此不一致難以解釋時,系統評價結果的信度降低。
合理解釋研究結果間的差異是評價一致性的關鍵,其理論基礎可以是內部產生的(如源自原始研究)、外源性的(如基于已建立的概念或理論)或者原創的(如作者在綜合結果過程中提出的理論)。這種差異有時很難被解釋從而出現不一致的情況,包括:① 有效數據不足 [16];② 沒有深入探討無關或反常情況的原因;③ 系統評價作者對該領域了解不充分,不能給出合理的解釋;④ 系統評價中提及的理論有缺陷或不完整;⑤ 系統評價的研究樣本不理想。對研究樣本及探討無關或反常情況的原因的評價也可能出現在方法學局限性部分。對一致性的評價有助于作者明確自身合并模型的適用程度,使其能夠對該模型和反常案例做出更加合理的解釋。需要指出的是,CERQual的目的不是消除不一致性,原始研究資料間的共性和差異對綜合結果的得出都有重要意義,綜合結果時作者不應該只看到相一致的部分而忽略一些有重要意義的反常案例。
一致性的評價結果對系統評價有以下三方面意義:① 系統評價作者應當考慮是否能夠從有差異的結果中,提出有關問題新的假說或理論;② 當特定系統評價結果缺乏一致性時,可能提示該領域需要更多的原始研究,并且應當及時更新系統評價;③ 當系統評價通過抽樣方式納入研究時 [17],系統評價的更新可以通過重新設計抽樣方法來探索結果不一致的原因。
2.4 數據充分性
數據充分性指針對定性系統評價某一結果,對其相關資料的豐富性和數量做出的綜合評價。數據豐富是指原始研究能夠提供充分詳細的信息來描述研究狀況使其易于理解,如理解參與者對特定話題的觀念和經驗。相反,數據單薄則不易于理解研究狀況,也將降低系統評價結果的信度。另外,原始研究數量不足或研究人群過少,觀察結果不足時,系統評價結果的信度也會降低,因為此時便無法確定是否存在其他研究得出了相類似的結果。
評價數據充分性時,需要綜合考慮其豐富性和所提取資料的數量(研究數量、研究人群和觀察結果等),任何一方面的缺陷都會降低系統評價結果信度。但是對此并沒有固定的評判準則,作者可以從數據的飽和原則去考慮,也可以通過評價其他研究資料對系統評價結果的影響程度對數據充分性做出評價 [18-21]。另外,評價者也應關注反常案例。需要注意的是,評價數據充分性并不是旨在增加原始研究的數量,更多的是讓評價者關注哪些地方資料不足或存在局限性。少量而概念豐富的研究或許比數量大但數據稀缺的描述性研究更加有說服力。
數據充分性的評價結果對系統評價有以下兩方面意義:① 當數據不充分時,提示該領域需要更多的相關原始研究;當原始研究發表時,需要及時更新系統評價;② 數據不充分也提示可能該系統評價關注的問題過窄,應當考慮適當擴大問題范圍,或納入更多解決相似問題的原始研究。這可能關聯到相關性的評價。
2.5 總體評價
單獨對以上4個部分進行評價后,綜合各部分的評價結果給出證據等級——高、中、低、極低,各個評級的意義如表 1所示。具體來說,首先將所有系統評價結果的初始證據級別視為高級別,然后依據上述4個方面,進行降級,得出定性系統評價單個合成結果的最終證據級別。也就是說,在沒有其他因素影響證據信度的情況下,系統評價的每一個結果都應被認為是所研究問題真實情況的高度反映。需要指出的是,總體評價是針對系統評價單個結果的總體評價,而非針對系統評價所有結果。應注意4部分之間的相互作用,避免重復降級。具體的評級需要由多名研究人員(包括方法學家)討論后決定。

整個評價過程應當透明,最后需呈現在預先設計的定性系統評價結果總結表(Summary of Qualitative Findings Table)中。這里的“定性結果總結”表與在Cochrane系統評價中使用的“結果總結表”相似——總結描述綜合結果及其證據分級和納入研究情況,提供定性證據信度評級的解釋(參見應用舉例)。
3 應用舉例
以Bohren等 [22]在PLoS Medicine上發表的關于產婦在分娩機構中受到不平等待遇的系統評價為例,具體說明CERQual在證據分級中的應用。
3.1 背景
研究表明,在全球各地,產婦在醫療機構中分娩時受到了不平等待遇,包括被虐待、被忽視、缺乏尊重等。關于產婦在醫療機構中受到的不平等待遇,目前還缺乏全面的分類標準,識別標準及操作定義,這方面的不足將使這一領域的深入研究難以開展。此系統評價通過綜合定性和定量的證據,明確產婦在分娩機構分娩時受到不平等待遇的種類和原因,旨在促進有關該現象的類型學的發展。
3.2 方法
采用預先制定好的檢索策略全面檢索有關產婦在分娩機構中受到不平等待遇的定性、定量及混合性研究,無地域及收入水平差異的限制。運用主題分析法綜合定性研究結果并采用CERQual方法對每一個綜合結果進行信度分級。本例僅關注該研究的定性綜合部分,其余部分不作過多描述。
3.3 結果
共納入涵蓋34個國家的65篇研究,其中定性綜合結果從以下6個方面進行歸納分析:① 軀體暴力;② 語言暴力;③ 侮辱和歧視;④ 非專業護理;⑤ 關系不和諧;⑥ 機構環境設施差。共對34個綜合結果做出了信度分級,此處分別就限制自由(physical restraint)、不正當評論(judgmental and accusatory comments)和不實施鎮痛措施(refusal to provide pain relief)3個結果進行描述和證據分級。
3.3.1 限制自由
產婦在分娩機構中人身自由受到限制,如被綁于床上和封口。該結果共包含2個研究,方法學質量分別為高和低,故方法學局限性整體評價為高度局限性;2個研究的研究目的、對象等均與研究問題呈中度相關;因研究資料不足,故一致性不清楚;2個研究來自2個國家,資料單一有限,數據充分性整體不足。綜上考慮,將該系統評價結果信度由初始的“高”降為“低”。
3.3.2 不正當評論
產婦的性行為受到醫護人員的不正當評論而使之蒙羞,尤其在少女和未婚女性中多見,這讓本身處于弱勢地位的產婦感到屈辱,以致讓她們覺得醫護人員對其不尊重、冷漠和粗魯。該結果共包含10個研究,2個方法學質量為高,6個為中,2個為低,故方法學局限性整體評價為中度局限性;相關性的評價中4個呈高度相關,5個呈中度相關,1個為低相關,整體為中度相關;研究間較相似,尤其是來自撒哈拉以南非洲地區的研究,故一致性為高;10個研究分別來自8個國家,包括亞洲(1)、中東和北非(1)、北美(1)和撒哈拉以南非洲地區(7),其中中、高收入國家各一個,數據充分性為中。綜上考慮,該系統評價結果信度為“中”。
3.3.3 不實施鎮痛措施
產婦分娩時,醫護人員未對其采取鎮痛措施,在資源匱乏的機構常常是因為藥品缺乏或患者醫藥費支付不足,但在資源充裕的機構患者的鎮痛訴求也被拒絕。該結果共包含11個研究,5個方法學質量為高,6個為中,方法學局限性整體評價為輕微局限性;相關性的評價中4個呈高度相關,5個呈中度相關,2個為低相關,整體為中度相關;因研究間的差異在文中給出了合理解釋,故一致性為高;11個研究分別來自9個國家,包括亞洲(1),歐洲(2)、中東和北非(2)、北美(1)和撒哈拉以南非洲地區(5),其中高收入國家3個,中等收入國家2個,數據充分性為高。綜上考慮,該系統評價結果信度為“高”。
最終將系統評價結果及CERQual分級通過“結果總結表”呈現出來,見表 2。結果總結表簡單直觀,且能夠使整個評價過程盡可能透明展示,我們提倡CERQual使用者能夠使用結果總結表來呈現系統評價結果及其證據分級。

目前,CERQual作為GRADE工作組中的一個小組 [23],主要針對定性系統評價的證據分級,嘗試對定性系統評價的質量評價進行了規范和發展。CERQual正處于不斷發展之中,其未來的發展方向主要包括:① 制定CERQual的詳細使用指南;② C ERQual對不同定性合成方法的適用性;③ CERQual四個方面的交互作用及評價順序;④ 是否增加“發表偏倚”(dissemination bias)這一評價條目等。雖然CERQual處于剛剛起步的階段,需要不斷完善并發展定性證據推薦系統,但隨著患者偏好、干預可推廣性以及醫學人文問題(如文化、信仰、生活方式對醫學選擇的影響)越來越受重視 [24],定性原始研究越來越規范,CERQual將會有更廣闊的應用空間。本課題組后續將通過系列論文詳細介紹CERQual的使用方法。
1 背景
循證醫學誕生以來,越來越多的研究者意識到證據分級在循證實踐和知證決策方面的重要性 [1]。GRADE系統是當前證據質量和推薦強度分級的國際標準之一,被衛生領域的相關人員應用在定量系統評價、循證臨床指南以及衛生技術評估等方面。GRADE系統目前主要對干預性定量系統評價進行分級,并不適用于定性系統評價的分級。近年來,定性系統評價數量不斷增加 [2],且定量系統評價無法很好地提供關于干預措施可接受性和可推廣性的證據 [3],不能滿足研究者和決策者等證據使用者的需要 [4],因此建立定性系統評價的證據分級系統成為了一種必然。本文將介紹專門為定性系統評價證據開發的證據分級工具CERQual [5],并舉例解釋如何應用。
CERQual(Confidence in the Evidence from Reviews of Qualitative research)工具最早開發于2010年,由挪威知識轉化中心的Claire Glenton、Simon Lewin教授聯合Cochrane協作網、Campbell協作網、GRADE工作組和世界衛生組織(WHO)等國際相關機構制定的定性系統評價分級系統,旨在為國際指南小組使用定性系統評價證據提供支持。2010年,WHO制定了關于衛生工作者在圍產期角色轉化的指南(OPTIMIZEMNH)[6],主要探索如何使高水平的衛生工作者面向基層服務,以應對基層衛生工作者缺乏這一全球難題。由于涉及到工作群體的轉化,可接受性和可行性是影響干預措施有效性的重要因素,因此指南制定小組決定全面分析可接受性和可行性的證據,并制作了3個相關的定性系統評價 [7-9]。作為一項開創性的工作,該小組遇到了定性系統評價中納入的研究質量不一,結論互相矛盾,一些證據只來自特定地區或利益相關者的研究等問題,為分析這些因素對系統評價的影響,指南制定小組著手開發了針對定性系統評價證據的分級工具——CERQual [10]。
2 內容
對于同一研究問題,有不同類型和級別的研究證據,基于不同級別研究證據解決同一問題的效果不同,故有必要研發科學透明的證據分級和推薦系統 [11]。從某種意義上來說,針對定性系統評價的CERQual分級工具(圖 1)與定量系統評價的分級工具GEADE [12]具有相似性,兩者都旨在評價證據的信度(confidence),并用高、中、低、極低四個等級表示系統評價證據級別。CERQual分級工具與Goldsmith等 [13]研究使用的定性研究評價方法有相似之處,均為通過評估單個納入研究的方法學局限性、研究結果的一致性、相關性和數據充分性對定性系統評價總體質量進行分級。CERQual中的證據信度是指系統評價結果與所研究問題真實情況的相符程度。其評定的標準目前需要研究者自行確定,整個評價過程應當透明并呈現在系統評價總結表中。CERQual工具基于4個方面 [8]評價定性系統評價證據:① 方法學局限性(methodological limitations);② 相關性(relevance);③ 結果一致性(coherence);④ 數據充分性(adequacy of data)。下面將進行解釋。

2.1 方法學局限性
方法學局限性指原始研究設計和實施中存在的問題,需借鑒相關的定性研究方法學質量評價工具對每一個納入研究進行評價。“定性研究”范疇囊括大量的研究問題和多樣的研究設計。正如評價定量研究方法學質量時提出的問題一樣,評價定性研究方法學質量時,我們會提出同樣類型的問題。如,研究結果的效度有多大?研究結果準確度的變異性有多大?以及研究結果的應用范圍有多廣?然而,由于定性研究中研究問題和研究設計的多樣性,以及不同學科構建和評價定性研究的方法不同,不能簡單地將評價定量研究的方法應用到定性研究中。正因如此,研究者們已經致力于構建評價定性研究方法學質量的理論和方法,涵蓋了定量和定性研究者共同的關注點,并能有效地用于評價各種定性研究。
鑒于定性研究設計沒有證據等級之分,其方法學局限性應基于每一個研究的方法學優劣勢來評價。CERQual借鑒CASP(Critical Appraisal Skills Programme)[14]評價定性研究的方法學局限性,但不排除使用其他定性質量評價工具(如UKGCSRO [15])。因為系統評價的結果由眾多原始研究數據所支撐,所以評價方法學質量如何影響研究結果時,應考慮每一個納入研究的方法學局限性,并基于此給出方法學局限性的總體評價。當納入的原始研究具有重大的方法學缺陷時,系統評價結果的信度便會降低。原始研究的方法學局限性可能僅影響系統評價的某一特定結局指標,但對另一結果卻可能沒有影響。此部分的評價結果對系統評價的意義在于:當針對某個特定問題的系統評價所納入研究的方法學質量低時,表明需要開展更多關于此類問題的高質量原始研究或更清晰地報告所用的研究方法。
2.2 相關性
相關性指納入研究的研究目的、研究對象等與系統評價要解決問題的相符程度。一般情況下,定性系統評價的納入標準與研究問題相一致,因此納入研究的相關性較強。但是也有相關性較低的情況,可歸納為:① 間接相關,例如研究人們對禽流感的看法,但是由于缺乏相關研究,因此納入豬流感的相關研究;② 部分相關,例如研究歐洲地區幼兒園兒童的生活模式,但是只納入挪威地區的研究;③ 相關性不確定,即納入研究與定性系統評價需要解決的問題相關性不大,或者對相關性的解釋不明。當有以上情況出現時,系統評價結果的信度將會降低。
相關性的評價結果對系統評價有兩方面意義:① 相關性不強時,提示針對該研究問題需要在不同環境下開展更加多樣化的原始研究及對研究結果做出更好的報告;② 相關性不強也可能提示系統評價所關注的問題在特定環境下并不突出或非普遍現象。
2.3 一致性
一致性是指綜合結果與相應原始研究結果的相符程度及是否解釋了原始研究結果的差異。特定的合并模型要能夠通過原始研究提供的資料或者作者(原始研究或系統評價的作者)提出的假說來解釋。當原始研究中出現無關或反常的情況,不支持甚至與系統評價結果相悖,且此不一致難以解釋時,系統評價結果的信度降低。
合理解釋研究結果間的差異是評價一致性的關鍵,其理論基礎可以是內部產生的(如源自原始研究)、外源性的(如基于已建立的概念或理論)或者原創的(如作者在綜合結果過程中提出的理論)。這種差異有時很難被解釋從而出現不一致的情況,包括:① 有效數據不足 [16];② 沒有深入探討無關或反常情況的原因;③ 系統評價作者對該領域了解不充分,不能給出合理的解釋;④ 系統評價中提及的理論有缺陷或不完整;⑤ 系統評價的研究樣本不理想。對研究樣本及探討無關或反常情況的原因的評價也可能出現在方法學局限性部分。對一致性的評價有助于作者明確自身合并模型的適用程度,使其能夠對該模型和反常案例做出更加合理的解釋。需要指出的是,CERQual的目的不是消除不一致性,原始研究資料間的共性和差異對綜合結果的得出都有重要意義,綜合結果時作者不應該只看到相一致的部分而忽略一些有重要意義的反常案例。
一致性的評價結果對系統評價有以下三方面意義:① 系統評價作者應當考慮是否能夠從有差異的結果中,提出有關問題新的假說或理論;② 當特定系統評價結果缺乏一致性時,可能提示該領域需要更多的原始研究,并且應當及時更新系統評價;③ 當系統評價通過抽樣方式納入研究時 [17],系統評價的更新可以通過重新設計抽樣方法來探索結果不一致的原因。
2.4 數據充分性
數據充分性指針對定性系統評價某一結果,對其相關資料的豐富性和數量做出的綜合評價。數據豐富是指原始研究能夠提供充分詳細的信息來描述研究狀況使其易于理解,如理解參與者對特定話題的觀念和經驗。相反,數據單薄則不易于理解研究狀況,也將降低系統評價結果的信度。另外,原始研究數量不足或研究人群過少,觀察結果不足時,系統評價結果的信度也會降低,因為此時便無法確定是否存在其他研究得出了相類似的結果。
評價數據充分性時,需要綜合考慮其豐富性和所提取資料的數量(研究數量、研究人群和觀察結果等),任何一方面的缺陷都會降低系統評價結果信度。但是對此并沒有固定的評判準則,作者可以從數據的飽和原則去考慮,也可以通過評價其他研究資料對系統評價結果的影響程度對數據充分性做出評價 [18-21]。另外,評價者也應關注反常案例。需要注意的是,評價數據充分性并不是旨在增加原始研究的數量,更多的是讓評價者關注哪些地方資料不足或存在局限性。少量而概念豐富的研究或許比數量大但數據稀缺的描述性研究更加有說服力。
數據充分性的評價結果對系統評價有以下兩方面意義:① 當數據不充分時,提示該領域需要更多的相關原始研究;當原始研究發表時,需要及時更新系統評價;② 數據不充分也提示可能該系統評價關注的問題過窄,應當考慮適當擴大問題范圍,或納入更多解決相似問題的原始研究。這可能關聯到相關性的評價。
2.5 總體評價
單獨對以上4個部分進行評價后,綜合各部分的評價結果給出證據等級——高、中、低、極低,各個評級的意義如表 1所示。具體來說,首先將所有系統評價結果的初始證據級別視為高級別,然后依據上述4個方面,進行降級,得出定性系統評價單個合成結果的最終證據級別。也就是說,在沒有其他因素影響證據信度的情況下,系統評價的每一個結果都應被認為是所研究問題真實情況的高度反映。需要指出的是,總體評價是針對系統評價單個結果的總體評價,而非針對系統評價所有結果。應注意4部分之間的相互作用,避免重復降級。具體的評級需要由多名研究人員(包括方法學家)討論后決定。

整個評價過程應當透明,最后需呈現在預先設計的定性系統評價結果總結表(Summary of Qualitative Findings Table)中。這里的“定性結果總結”表與在Cochrane系統評價中使用的“結果總結表”相似——總結描述綜合結果及其證據分級和納入研究情況,提供定性證據信度評級的解釋(參見應用舉例)。
3 應用舉例
以Bohren等 [22]在PLoS Medicine上發表的關于產婦在分娩機構中受到不平等待遇的系統評價為例,具體說明CERQual在證據分級中的應用。
3.1 背景
研究表明,在全球各地,產婦在醫療機構中分娩時受到了不平等待遇,包括被虐待、被忽視、缺乏尊重等。關于產婦在醫療機構中受到的不平等待遇,目前還缺乏全面的分類標準,識別標準及操作定義,這方面的不足將使這一領域的深入研究難以開展。此系統評價通過綜合定性和定量的證據,明確產婦在分娩機構分娩時受到不平等待遇的種類和原因,旨在促進有關該現象的類型學的發展。
3.2 方法
采用預先制定好的檢索策略全面檢索有關產婦在分娩機構中受到不平等待遇的定性、定量及混合性研究,無地域及收入水平差異的限制。運用主題分析法綜合定性研究結果并采用CERQual方法對每一個綜合結果進行信度分級。本例僅關注該研究的定性綜合部分,其余部分不作過多描述。
3.3 結果
共納入涵蓋34個國家的65篇研究,其中定性綜合結果從以下6個方面進行歸納分析:① 軀體暴力;② 語言暴力;③ 侮辱和歧視;④ 非專業護理;⑤ 關系不和諧;⑥ 機構環境設施差。共對34個綜合結果做出了信度分級,此處分別就限制自由(physical restraint)、不正當評論(judgmental and accusatory comments)和不實施鎮痛措施(refusal to provide pain relief)3個結果進行描述和證據分級。
3.3.1 限制自由
產婦在分娩機構中人身自由受到限制,如被綁于床上和封口。該結果共包含2個研究,方法學質量分別為高和低,故方法學局限性整體評價為高度局限性;2個研究的研究目的、對象等均與研究問題呈中度相關;因研究資料不足,故一致性不清楚;2個研究來自2個國家,資料單一有限,數據充分性整體不足。綜上考慮,將該系統評價結果信度由初始的“高”降為“低”。
3.3.2 不正當評論
產婦的性行為受到醫護人員的不正當評論而使之蒙羞,尤其在少女和未婚女性中多見,這讓本身處于弱勢地位的產婦感到屈辱,以致讓她們覺得醫護人員對其不尊重、冷漠和粗魯。該結果共包含10個研究,2個方法學質量為高,6個為中,2個為低,故方法學局限性整體評價為中度局限性;相關性的評價中4個呈高度相關,5個呈中度相關,1個為低相關,整體為中度相關;研究間較相似,尤其是來自撒哈拉以南非洲地區的研究,故一致性為高;10個研究分別來自8個國家,包括亞洲(1)、中東和北非(1)、北美(1)和撒哈拉以南非洲地區(7),其中中、高收入國家各一個,數據充分性為中。綜上考慮,該系統評價結果信度為“中”。
3.3.3 不實施鎮痛措施
產婦分娩時,醫護人員未對其采取鎮痛措施,在資源匱乏的機構常常是因為藥品缺乏或患者醫藥費支付不足,但在資源充裕的機構患者的鎮痛訴求也被拒絕。該結果共包含11個研究,5個方法學質量為高,6個為中,方法學局限性整體評價為輕微局限性;相關性的評價中4個呈高度相關,5個呈中度相關,2個為低相關,整體為中度相關;因研究間的差異在文中給出了合理解釋,故一致性為高;11個研究分別來自9個國家,包括亞洲(1),歐洲(2)、中東和北非(2)、北美(1)和撒哈拉以南非洲地區(5),其中高收入國家3個,中等收入國家2個,數據充分性為高。綜上考慮,該系統評價結果信度為“高”。
最終將系統評價結果及CERQual分級通過“結果總結表”呈現出來,見表 2。結果總結表簡單直觀,且能夠使整個評價過程盡可能透明展示,我們提倡CERQual使用者能夠使用結果總結表來呈現系統評價結果及其證據分級。

目前,CERQual作為GRADE工作組中的一個小組 [23],主要針對定性系統評價的證據分級,嘗試對定性系統評價的質量評價進行了規范和發展。CERQual正處于不斷發展之中,其未來的發展方向主要包括:① 制定CERQual的詳細使用指南;② C ERQual對不同定性合成方法的適用性;③ CERQual四個方面的交互作用及評價順序;④ 是否增加“發表偏倚”(dissemination bias)這一評價條目等。雖然CERQual處于剛剛起步的階段,需要不斷完善并發展定性證據推薦系統,但隨著患者偏好、干預可推廣性以及醫學人文問題(如文化、信仰、生活方式對醫學選擇的影響)越來越受重視 [24],定性原始研究越來越規范,CERQual將會有更廣闊的應用空間。本課題組后續將通過系列論文詳細介紹CERQual的使用方法。