健康公平性的核心關注點是為讓所有公眾都能夠公平享有健康服務,實現良好的健康結局。指南制訂者越來越重視在指南制訂過程中對健康公平性的考慮,并且在相關的指南中進行探索和實踐。2014 年,GRADE 工作組開始研究如何在指南中應用 GRADE 評價健康公平性,2017 年正式發表了相關的方法學系列論文,提出了 GRADE 評價健康公平性的 5 種方法,同時討論了目前應用 GRADE 考慮健康公平性所面臨的方法學挑戰。本文旨在介紹 GRADE 對健康公平性的考慮,為中國臨床指南的制訂者和研究者提供參考。
引用本文: 王子君, 王小琴, 姚亮, 劉練, 王浩, 周奇, 陳耀龍. GRADE 對健康公平性的考慮. 中國循證醫學雜志, 2018, 18(7): 746-752. doi: 10.7507/1672-2531.201709048 復制
1 健康公平性的定義和影響因素
1.1 健康公平性的定義及其重要性
公平性是一個倫理上的概念,指社會公正和公平。健康公平性(health equity)則指不存在不公正或不公平的健康差異,即每一位社會成員均應有公平的機會達到其最佳的健康狀態,除非不可避免,否則不應有人在健康獲得方面受到不利的影響[1]。而健康不公平性(health inequity)則是與之相對的概念,WHO 將健康不公平性定義為“健康狀態或健康決定因素的分布在不同人群中的差異”[2]。有的不公平是由于生理學差異造成的,有的可歸因于不可控的外部環境。這種差異可用標準的健康數據來衡量,從倫理和道德層面出發,健康不公平性是指非必要和可避免的不公平或不公正,因此并非所有差異都可稱之為不公平性[3]。
健康公平性極為重要,在任何區域、任何政治和社會系統,不同的社會群體及同一國家不同地域的人群都存在健康差異。首先,在不同群體中,弱勢群體患者幸存的概率更低、平均壽命更短已成為不爭的事實,甚至在同一個國家中,農村地區的病死率與城市地區的病死率差異都可能很大。如 2004 年,中國農村孕產婦死亡率是城市的 3.2 倍[4]。其次,不同人群的患病經歷差異很大,弱勢群體的疾病負擔往往更重,且多有可能在更年輕時患病。如,芬蘭低收入人群中有 42% 為慢性病患者,而高收入人群只有 18%[5]。而在其他方面,如就業狀況、衛生服務質量等,弱勢群體都存在不及其他人群的情況。以上所有這些因素都會降低弱勢群體的健康水平和生活質量,導致健康不公平性。
1.2 健康公平性的影響因素
健康不公平性可由多種因素引起。2014 年 O’Neill 等[6]通過研究將主要的影響因素分為以下幾類:居住地(place of residence)、種族/民族/文化或語言(race/ethnicity/culture/language)、職業(occupation)、生理或社會性別(gender/sex)、宗教(religion)、教育(education)、社會經濟地位(socioeconomic status)、社會資產(social capital),以上因素縮寫為 PROGRESS。應用 PROGRESS 框架,研究者可以確定可能會引起健康不公平性的個人和環境因素。同時 PROGRESS-Plus 中還增加了其他需要考慮的因素,如年齡、殘疾、性取向、時間限制和人際關系等[6]。
2 健康公平性在臨床指南中的考慮
2.1 在臨床指南中考慮健康公平性的意義
通常情況下,弱勢群體的健康水平相對優勢群體更為低下,獲得衛生保健服務的可及性更低,接受的衛生保健服務質量也不如優勢群體,這種健康不公平性不利于患者,特別是對弱勢群體的健康結局[7, 8]。臨床實踐指南可改善整個人群的健康結局,但卻無法改變不公平性,因為不是所有群體都能獲得臨床實踐指南中所推薦的最佳干預,有時指南的推薦意見甚至會促進或加重這種不公平性[9],所以應該在指南制訂時就考慮這一問題,以明確是否可確保推薦意見公平地向弱勢群體提供衛生保健服務。而在指南中考慮公平性也已成為十分重要的問題。WHO 在其指南制訂手冊中專門設立一章來簡述指南制訂中需要考慮公平性、人群和性別[2]。其他國家和組織,包括澳大利亞國家健康醫學研究委員會(National Health and Medical Research Council,NHMRC)、國際臨床流行病學協作網(The International Clinical Epidemiology Network,INCLEN)、美國國家健康與護理研究所(The National Institute for Health and Care Excellence,NICE)、蘇格蘭校際指南協作網(Scottish Intercollegiate Guideline Network,SIGN)、哥倫比亞國立大學等機構都已經著手在臨床指南中加入對公平性的考慮,但如何考慮及如何合理體現公平性卻仍然在研究和探討之中[10-13]。
2.2 在指南中考慮健康公平性的研究進展
2003 年,Aldrich 等[10]提出臨床實踐指南應該詳細檢索社會經濟地位對干預效果影響的相關證據。2006 年,Oxman 等[14]撰寫了一系列在指南制訂中考慮公平性的文章,但沒有提及如何對其證據可靠性進行判斷。2007 年,Dans 等[13]推薦在指南中考慮公平性,但沒有提供如何考慮公平性對推薦強度的影響。2011 年,Tugwell 等[15]和另一個小組制訂了一系列針對難民和移民的臨床實踐指南,其中提出了多個考慮公平性的方法學建議(表 1),但仍然沒有與 GRADE 對接。GRADE 工作組最近將健康公平性作為影響公共衛生和衛生系統推薦意見的影響因素,以及從群體角度(非個人角度)出發的臨床推薦意見強度的影響因素。而且健康公平性也已經被列入 GIN-麥克馬斯特大學指南制訂清單[16, 17]。

2016 年,哥倫比亞國立大學的研究者與 GRADE 方法學家聯合就“如何應用 GRADE 方法,將公平性問題納入臨床實踐指南制訂”提出了建議[12]。研究方法分為 4 個階段:首先嚴格評價了當前考慮公平性的步驟方法(包括上述相關的研究),同時也收集了數位研究者將公平性納入指南制訂、實施和評估的建議;其次,應用正式的共識方法,確定從 GRADE 角度考慮公平性的步驟,形成意見方案;再次,課題組對來自世界各地的專家進行了調查,以確定其是否同意上述方案;最后基于反饋意見,調整了明顯有分歧的條目;最終提出了如下步驟:
① 定義問題,并收集證據。在 PICO 問題的準備工作中確定弱勢群體人群和相關結局,應重點關注以下干預:對弱勢群體更有效的干預,或有證據顯示某項干預可減少不同亞組之間的差異。這一階段需要形成一個包含健康社會決定因素的邏輯模型,以輔助了解干預、結局和環境因素,從而幫助制訂檢索策略。另外還需要專門構建一個相關 PICO 問題來查找那些可以消除或減小不公平性的干預。該問題的干預措施是與臨床實踐指南具體路徑相關的公共衛生干預,結局指標是不公平性是否減少。
② 評價證據質量。應用針對公平性問題證據質量評價的 Cochrane 清單來評價系統評價/Meta 分析證據質量[18]。根據納入的弱勢群體結局指標,修改 GRADE 方法用于評價證據質量,對每個結局的證據進行總結,若可能,總結中應納入亞組分析。建議下列情況下可確定為證據質量較高:通過包含弱勢群體的亞組分析來檢測有效性;弱勢群體的獲益(效益)更高;觀察性研究顯示干預效果或其他相關指標在弱勢群體中更好;針對某項干預的效果控制了效應調整變量(effect modifier variable),或對其進行了相關性分析,亦或進行了說明。
③ 形成推薦意見。所有證據質量的評價都在形成推薦意見之前完成。在考慮證據質量、利弊平衡、患者偏好和價值觀、資源利用之外,需要將公平性考慮進去。這期間,還需要考慮 GRADE 提出的亞組人群間的不同效果,針對減少不公平性的 PICO 問題的結果,以及其中提到的干預措施。經濟學評估需要特別考慮針對弱勢群體的成本效果。
④ 持續監測。應說明在弱勢群體中監測相關公平性實施情況的指標,并與后續戰略掛鉤,定期檢測對這些小組的影響。建議根據具體情況靈活地使用簡單或復雜的方法進行不公平性分析。
3 GRADE 考慮健康公平性
3.1 GRADE 健康公平性方法學指南的制訂過程
理想情況下,指南小組應使用客觀、透明的流程來衡量公平性,同時也基于利益相關者的反饋和建議來完善該流程。GRADE 通過討論不同的公平性因素如何影響推薦意見的方向和強度以促成上述理想流程的制訂,同時也記錄下可能影響患者個體、臨床醫生和政策制訂者進行決策的因素。2014 年,Vivian 等提出了通過 GRADE 考慮健康公平性的方案,并規劃了系列文章,該項工作得到了 GRADE 工作組的支持,同時 GRADE 公平性工作組得以建立,其成員包括來自歐洲、拉丁美洲和亞洲(包括中國)等地區的專家,專業領域涵蓋臨床醫學、公共衛生、衛生經濟學以及相關方法學。
GRADE 公平性工作組建立了一個核心團隊來構思、規劃、組織和協調 GRADE 公平性方法學指南的制訂。他們檢索了 Medline 和 NGC,同時對相關機構(包括 WHO、NICE、NHMRC、New Zealand Guidelines Group、AHRQ、Canadian Task Force、Community Guide)發布的在線手冊的公平性部分進行研究。核心團隊通過定期組織電話或面對面會議對工作進展和相關的資料總結表進行討論,就如何將以往的研究結果整合應用到 GRADE 公平性指南中達成共識。
2017 年,GRADE 工作組正式推出 GRADE 公平性方法學指南系列,旨在為指南制訂過程中應用 GRADE 考慮健康公平性提供理論指導[19, 20]。GRADE 工作組推薦使用 PROGRESS Plus[6]模板來確定公平性,同時也意識到還有其他框架,如 SCRAP–性別(sex)、共病(comorbidities)、種族(race)、年齡(age)和病理生理(pathophysiology),以及指南小組可能考慮的其他因素。所以鼓勵每個專家組根據自己所在的環境和推薦意見的主題來合理納入最相關的影響因素。GRADE 公平性方法學指南系列展示了在指南制訂的 4 個階段中(問題形成和指南范圍確定階段、相關專家組成立階段、證據評價階段、從證據到推薦的決策階段)如何考慮健康公平性。表 2 列舉了在每個階段考慮公平性的實例。
3.2 GRADE 評價健康公平性的方法
在證據綜合和評價階段,用 GRADE 方法考慮健康公平性主要考慮兩個方面:評價關于健康結局差異的證據,評價針對弱勢群體(可能未被納入試驗)的證據的間接性。應用 GRADE 評價健康公平性主要有以下 5 條途徑。
3.2.1 考慮將健康公平性作為一個結局指標納入證據總結(SoF)表
如果利益相關者認為健康公平性非常重要,則可將其作為 PICO 問題的結局指標,同時在分析框架和 SoF 表中予以呈現。為此,指南制訂者必須在亞組分析中考慮不同人群的健康公平性,同時也要注意這可能會排除其他的重要結局,因為 GRADE SoF 表通常只呈現 7 個結局指標。如 NICE 的母嬰營養指南重點關注了對健康不公平性的影響,其將問題構建為“什么樣的營養干預可有效改善孕前、孕中和產后母嬰(5 歲以下)的健康,同時減少營養相關的健康不公平”[21]。將健康公平性作為 SoF 表中的結局指標,方便了指南專家組快速定位是否有關于健康公平性的信息,并在推薦形成過程中加以考慮。
很多因素會影響到健康公平性的效應量大小和方向,如參考的對照組、使用相對還是絕對效應、結局是有利還是不利事件。如觀察美國 1930~2000 年的胃癌病死率在不同性別中的差異,可以發現絕對效應顯示男性和女性的病死率都有所下降,而相對效應卻顯示男性相對女性的病死率有所上升(男/女)[22]。此外,研究者不能因為證據缺乏健康公平性結局指標而不在 SoF 表中呈現,而應在表中明確說明這一空白,以提示未來需要開展相關的研究。具體示例如下。
例 1:社區飲水氟化指南將“健康差異”作為結局指標呈現在分析框架和 SoF 表中,因為社區工作組對減少齲齒相關的社會經濟差異予以了高度重視[23]。指南中用連續性結局(齲齒)的絕對差異測量了社會經濟差異,證據評價過程中僅發現了 3 項無法提供充足證據的研究,不足以得出結論,故在證據表中明確了這一研究差距(表 3)。

例 2:在一項減少成人吸煙的干預系統評價中,“公平性影響”是其主要的結局指標。系統評價將公平性影響作為二分類結局,用絕對效應評估了其差異(低社會經濟狀態與高社會經濟狀態之間發生率差異)的大小。結果顯示,盡管當前已經有減少吸煙相關的健康不公平性的提價和加稅政策,但大眾媒體加劇了健康不公平性。這一系統評價提供的證據足以支持指南將健康不公平性列入干預的結局指標。
3.2.2 考慮與健康公平性相關的患者重要結局
證據綜合過程應該考慮不同結局指標的相對重要性,這些結局由代表弱勢群體的利益相關者所決定。然后研究者需要對相應的證據進行評價,如針對鐮狀細胞貧血患者實施皮下循環泵的不便性[19]。
3.2.3 評價弱勢和優勢個人/群體之間相對效果的差異大小
平均效果往往會掩蓋不同人群之間的效果差異。要研究不同社會經濟地位或其他健康不公平性變量引起的效果差異,就需要評價治療效果在不同人群和環境中的差異。如用 Meta 回歸或亞組分析等統計學方法分析。
應注意不同人群和環境中的總體效果和亞組分析效果的差異。如果總體效果和亞組效果明顯存在差異,則很有必要評價這種效果的可靠性,亞組分析可靠性評價可參見框 1[24]。如果評價結果顯示亞組效果可靠,指南專家組就應同時提供亞組分析結果的相對和絕對效果,然后針對不同亞組的患者提供不同的推薦,或考慮針對所有人群的推薦意見是否需要改編以加強公平性。但當評價結果顯示亞組分析可靠性低時,指南專家組則可提出需要進一步的研究。雖然很少有亞組分析滿足所有標準,但如果滿足了大部分標準,則考慮承認在對不同亞組中效應量的差異。
例 1:不同藥物控制高血壓的效果與不同種族有關。針對高血壓管理的第八版聯合委員會(JNC 8)指南推薦鈣通道阻滯劑或利尿劑作為黑種人高血壓人群的起始治療方案,而對于其他高血壓人群則推薦血管緊張素轉化酶(ACE)抑制劑、血管緊張素受體阻滯劑、鈣通道阻滯劑或利尿劑。該條推薦意見的依據是已有試驗的亞組分析結果,該試驗有 18 102 名參與者,其中 35% 是黑種人,試驗結果表明首先接受 ACE 抑制劑治療的黑種人發生卒中的概率比首先接受鈣通道阻滯劑高出 51%[95%CI(1.22,1.86)],亞組分析的證據質量為中等。然而如果專家組沒有發現亞組效應,而推薦 ACE 作為黑種人的一線治療藥物,則會加劇黑種人和白種人之間的健康差異[25]。

3.2.4 評價基線風險差異及其對劣勢個體或群體的絕對效果的不同影響
在所有人群中:不良事件基線風險高可能引起更多的傷害,有益結局的基線發生率更高則可能帶來更好的絕對效益。SoF 表應呈現每個群體的基線風險和風險差異,并提供相應證據。鑒于所有疾病的疾病負擔在弱勢群體中幾乎都不成比例,這些群體的基線風險就顯得尤其重要。對于特定人群的不良事件發生率或有益結局的基線風險的最佳證據一般來自于真實環境中的觀察性研究數據,而非 RCT。值得一提的是,目前已經有針對不同人群不同風險的證據質量評價的 GRADE 指導。
例 1:WHO 針對 6~59 個月兒童的維生素 A 補充指南[26]。
2011 年,WHO 推薦在維生素 A 缺乏已成為公共衛生問題的國家中,對 6 個月到 5 歲的兒童補充維生素 A(強推薦)。該推薦是基于一篇 Cochrane 系統評價的證據,其中全因病死率的相對風險為 0.76[95%CI(0.69,0.83)]。全因病死率在低風險人群中估計為 0/1 000,在高風險人群(維生素 A 缺乏)中估計為 9/1 000。
例 2:針對原住民或托雷斯海峽島民的預防性健康評估國家指南[27]。
在澳大利亞,指南專家組希望能夠確定對澳大利亞原住民和托雷斯海峽島民采用一系列預防性干預的最佳年齡。鑒于原住民和托雷斯海峽島民中可預防疾病的流行率高于一般人群,專家組推薦其使用預防性干預的年齡更小。例如,不管是哪個年齡段,2 型糖尿病在這類特殊人群中的發病率都是一般人群的 3~4 倍,所以推薦對這類人群的疾病篩查開始于 18 歲,而對普通人群則在 40 歲開始。
3.2.5 評價針對弱勢群體證據的間接性
在考慮健康公平性時,定量證據和定性證據都很重要。對于定性證據綜合的確定性(證據質量)可用 CerQUAL 進行評價,其中“相關性”與間接性性質類似。指南往往會發現缺少對于特殊人群的直接證據,因為這類人群在研究對象中占很小的比例(如移民和難民),就算有也很難將相應數據獨立出來;而還有一些試驗會明確排除一些特殊人群,如孕婦和多種疾病的患者,因為同時合并其他疾病在社會經濟弱勢群體中更為常見,所以研究設定的排除標準就可能導致更多地排除此類人群。在沒有直接證據的情況下,指南制訂者就要必須評價來自其他人群證據的間接性。
因證據間接性進行證據降級需要謹慎,只有在人群差異(如生物學或生理學、社會文化影響或特定的資源問題)極有可能造成干預效果的差異,從而影響干預的利弊結局時,才考慮降級。有時,因間接性而降低證據質量還有可能會增加不公平性,因為這可能導致一項有效的干預不被推薦或弱推薦用于弱勢群體,從而在實踐中導致弱勢群體使用和獲益更少。而實際上,弱勢群體比一般人群更需要接受此類干預,故間接性降級需謹慎。
例 1:加拿大移民指南在對潛在結核(TB)進行篩查方面沒有因間接性降級,盡管納入研究中沒有包括移民,但專家組認為相關證據對于移民來說并不間接[28]。
例 2:美國疾病預防與控制中心(CDC)關于丙型肝炎病毒(HCV)感染者的簡單飲酒咨詢的指南中,因間接性對證據進行了降級。基于一個納入 22 個 RCT 的系統評價證據,CDC 推薦對所有 HCV 感染者進行簡單飲酒篩查和咨詢。該系統評價發現接受干預 1 年后,試驗組的飲酒量相比對照組多下降了 38.42%[95%CI(3 0.91,65.44)]。但由于所有試驗均未納入 HCV 感染者,所以指南專家組因其間接性而降級[29]。
4 GRADE 考慮公平性的方法學挑戰
雖然關于如何利用 GRADE 評價健康公平性的第一階段方法學研究已經完成,但未來仍然存在多項挑戰。
第一,健康公平性評價不是線性過程。在進行證據評價的過程中,可能還需要反復查看指南的關注點,包括對重要弱勢群體的考慮。如 NICE 就在整個指南制訂過程中反復查看其關于健康公平性的關鍵問題。
第二,證據常常存在局限性,如社會人口學特征報告質量差,對不存在統計學差異的亞組分析報告少等。缺乏證據說明不確定在弱勢群體與普通人群中的效果一致還是存在差異,阻礙了間接性的判斷和證據質量評價。當健康公平性的相關證據不足時,指南專家組需要清晰地呈現這一局限性,并透明地報告最后是如何進行決策的。
第三,形成推薦意見時,關于弱勢群體基線風險的流行病學證據很難獲取。地方、區域和國家層面的衛生系統并沒有應用一致或可靠的方法來報告所有重要的社會人口學指標,指南專家組應透明地呈現他們是如何進行基線風險估計的。
第四,評價證據間接性時離不開 SoF 表制作者的臨床和方法學經驗與判斷。GRADE 指南制訂工具 GDT 納入了針對如何制作 SoF 表的詳細清單。其中有針對間接性證據評價的指導,同時也可記錄其他決策過程,從而協助指南工作組的專家進行判斷。
致謝 感謝 GRADE 公平性系列文章原作者 Vivian Welch 等人的引用授權以及寶貴意見,為本文提供了主要的參考資料,也感謝 Vivian Welch 和 Peter Tugwell 對中國 GRADE 健康公平性研究的支持。
1 健康公平性的定義和影響因素
1.1 健康公平性的定義及其重要性
公平性是一個倫理上的概念,指社會公正和公平。健康公平性(health equity)則指不存在不公正或不公平的健康差異,即每一位社會成員均應有公平的機會達到其最佳的健康狀態,除非不可避免,否則不應有人在健康獲得方面受到不利的影響[1]。而健康不公平性(health inequity)則是與之相對的概念,WHO 將健康不公平性定義為“健康狀態或健康決定因素的分布在不同人群中的差異”[2]。有的不公平是由于生理學差異造成的,有的可歸因于不可控的外部環境。這種差異可用標準的健康數據來衡量,從倫理和道德層面出發,健康不公平性是指非必要和可避免的不公平或不公正,因此并非所有差異都可稱之為不公平性[3]。
健康公平性極為重要,在任何區域、任何政治和社會系統,不同的社會群體及同一國家不同地域的人群都存在健康差異。首先,在不同群體中,弱勢群體患者幸存的概率更低、平均壽命更短已成為不爭的事實,甚至在同一個國家中,農村地區的病死率與城市地區的病死率差異都可能很大。如 2004 年,中國農村孕產婦死亡率是城市的 3.2 倍[4]。其次,不同人群的患病經歷差異很大,弱勢群體的疾病負擔往往更重,且多有可能在更年輕時患病。如,芬蘭低收入人群中有 42% 為慢性病患者,而高收入人群只有 18%[5]。而在其他方面,如就業狀況、衛生服務質量等,弱勢群體都存在不及其他人群的情況。以上所有這些因素都會降低弱勢群體的健康水平和生活質量,導致健康不公平性。
1.2 健康公平性的影響因素
健康不公平性可由多種因素引起。2014 年 O’Neill 等[6]通過研究將主要的影響因素分為以下幾類:居住地(place of residence)、種族/民族/文化或語言(race/ethnicity/culture/language)、職業(occupation)、生理或社會性別(gender/sex)、宗教(religion)、教育(education)、社會經濟地位(socioeconomic status)、社會資產(social capital),以上因素縮寫為 PROGRESS。應用 PROGRESS 框架,研究者可以確定可能會引起健康不公平性的個人和環境因素。同時 PROGRESS-Plus 中還增加了其他需要考慮的因素,如年齡、殘疾、性取向、時間限制和人際關系等[6]。
2 健康公平性在臨床指南中的考慮
2.1 在臨床指南中考慮健康公平性的意義
通常情況下,弱勢群體的健康水平相對優勢群體更為低下,獲得衛生保健服務的可及性更低,接受的衛生保健服務質量也不如優勢群體,這種健康不公平性不利于患者,特別是對弱勢群體的健康結局[7, 8]。臨床實踐指南可改善整個人群的健康結局,但卻無法改變不公平性,因為不是所有群體都能獲得臨床實踐指南中所推薦的最佳干預,有時指南的推薦意見甚至會促進或加重這種不公平性[9],所以應該在指南制訂時就考慮這一問題,以明確是否可確保推薦意見公平地向弱勢群體提供衛生保健服務。而在指南中考慮公平性也已成為十分重要的問題。WHO 在其指南制訂手冊中專門設立一章來簡述指南制訂中需要考慮公平性、人群和性別[2]。其他國家和組織,包括澳大利亞國家健康醫學研究委員會(National Health and Medical Research Council,NHMRC)、國際臨床流行病學協作網(The International Clinical Epidemiology Network,INCLEN)、美國國家健康與護理研究所(The National Institute for Health and Care Excellence,NICE)、蘇格蘭校際指南協作網(Scottish Intercollegiate Guideline Network,SIGN)、哥倫比亞國立大學等機構都已經著手在臨床指南中加入對公平性的考慮,但如何考慮及如何合理體現公平性卻仍然在研究和探討之中[10-13]。
2.2 在指南中考慮健康公平性的研究進展
2003 年,Aldrich 等[10]提出臨床實踐指南應該詳細檢索社會經濟地位對干預效果影響的相關證據。2006 年,Oxman 等[14]撰寫了一系列在指南制訂中考慮公平性的文章,但沒有提及如何對其證據可靠性進行判斷。2007 年,Dans 等[13]推薦在指南中考慮公平性,但沒有提供如何考慮公平性對推薦強度的影響。2011 年,Tugwell 等[15]和另一個小組制訂了一系列針對難民和移民的臨床實踐指南,其中提出了多個考慮公平性的方法學建議(表 1),但仍然沒有與 GRADE 對接。GRADE 工作組最近將健康公平性作為影響公共衛生和衛生系統推薦意見的影響因素,以及從群體角度(非個人角度)出發的臨床推薦意見強度的影響因素。而且健康公平性也已經被列入 GIN-麥克馬斯特大學指南制訂清單[16, 17]。

2016 年,哥倫比亞國立大學的研究者與 GRADE 方法學家聯合就“如何應用 GRADE 方法,將公平性問題納入臨床實踐指南制訂”提出了建議[12]。研究方法分為 4 個階段:首先嚴格評價了當前考慮公平性的步驟方法(包括上述相關的研究),同時也收集了數位研究者將公平性納入指南制訂、實施和評估的建議;其次,應用正式的共識方法,確定從 GRADE 角度考慮公平性的步驟,形成意見方案;再次,課題組對來自世界各地的專家進行了調查,以確定其是否同意上述方案;最后基于反饋意見,調整了明顯有分歧的條目;最終提出了如下步驟:
① 定義問題,并收集證據。在 PICO 問題的準備工作中確定弱勢群體人群和相關結局,應重點關注以下干預:對弱勢群體更有效的干預,或有證據顯示某項干預可減少不同亞組之間的差異。這一階段需要形成一個包含健康社會決定因素的邏輯模型,以輔助了解干預、結局和環境因素,從而幫助制訂檢索策略。另外還需要專門構建一個相關 PICO 問題來查找那些可以消除或減小不公平性的干預。該問題的干預措施是與臨床實踐指南具體路徑相關的公共衛生干預,結局指標是不公平性是否減少。
② 評價證據質量。應用針對公平性問題證據質量評價的 Cochrane 清單來評價系統評價/Meta 分析證據質量[18]。根據納入的弱勢群體結局指標,修改 GRADE 方法用于評價證據質量,對每個結局的證據進行總結,若可能,總結中應納入亞組分析。建議下列情況下可確定為證據質量較高:通過包含弱勢群體的亞組分析來檢測有效性;弱勢群體的獲益(效益)更高;觀察性研究顯示干預效果或其他相關指標在弱勢群體中更好;針對某項干預的效果控制了效應調整變量(effect modifier variable),或對其進行了相關性分析,亦或進行了說明。
③ 形成推薦意見。所有證據質量的評價都在形成推薦意見之前完成。在考慮證據質量、利弊平衡、患者偏好和價值觀、資源利用之外,需要將公平性考慮進去。這期間,還需要考慮 GRADE 提出的亞組人群間的不同效果,針對減少不公平性的 PICO 問題的結果,以及其中提到的干預措施。經濟學評估需要特別考慮針對弱勢群體的成本效果。
④ 持續監測。應說明在弱勢群體中監測相關公平性實施情況的指標,并與后續戰略掛鉤,定期檢測對這些小組的影響。建議根據具體情況靈活地使用簡單或復雜的方法進行不公平性分析。
3 GRADE 考慮健康公平性
3.1 GRADE 健康公平性方法學指南的制訂過程
理想情況下,指南小組應使用客觀、透明的流程來衡量公平性,同時也基于利益相關者的反饋和建議來完善該流程。GRADE 通過討論不同的公平性因素如何影響推薦意見的方向和強度以促成上述理想流程的制訂,同時也記錄下可能影響患者個體、臨床醫生和政策制訂者進行決策的因素。2014 年,Vivian 等提出了通過 GRADE 考慮健康公平性的方案,并規劃了系列文章,該項工作得到了 GRADE 工作組的支持,同時 GRADE 公平性工作組得以建立,其成員包括來自歐洲、拉丁美洲和亞洲(包括中國)等地區的專家,專業領域涵蓋臨床醫學、公共衛生、衛生經濟學以及相關方法學。
GRADE 公平性工作組建立了一個核心團隊來構思、規劃、組織和協調 GRADE 公平性方法學指南的制訂。他們檢索了 Medline 和 NGC,同時對相關機構(包括 WHO、NICE、NHMRC、New Zealand Guidelines Group、AHRQ、Canadian Task Force、Community Guide)發布的在線手冊的公平性部分進行研究。核心團隊通過定期組織電話或面對面會議對工作進展和相關的資料總結表進行討論,就如何將以往的研究結果整合應用到 GRADE 公平性指南中達成共識。
2017 年,GRADE 工作組正式推出 GRADE 公平性方法學指南系列,旨在為指南制訂過程中應用 GRADE 考慮健康公平性提供理論指導[19, 20]。GRADE 工作組推薦使用 PROGRESS Plus[6]模板來確定公平性,同時也意識到還有其他框架,如 SCRAP–性別(sex)、共病(comorbidities)、種族(race)、年齡(age)和病理生理(pathophysiology),以及指南小組可能考慮的其他因素。所以鼓勵每個專家組根據自己所在的環境和推薦意見的主題來合理納入最相關的影響因素。GRADE 公平性方法學指南系列展示了在指南制訂的 4 個階段中(問題形成和指南范圍確定階段、相關專家組成立階段、證據評價階段、從證據到推薦的決策階段)如何考慮健康公平性。表 2 列舉了在每個階段考慮公平性的實例。
3.2 GRADE 評價健康公平性的方法
在證據綜合和評價階段,用 GRADE 方法考慮健康公平性主要考慮兩個方面:評價關于健康結局差異的證據,評價針對弱勢群體(可能未被納入試驗)的證據的間接性。應用 GRADE 評價健康公平性主要有以下 5 條途徑。
3.2.1 考慮將健康公平性作為一個結局指標納入證據總結(SoF)表
如果利益相關者認為健康公平性非常重要,則可將其作為 PICO 問題的結局指標,同時在分析框架和 SoF 表中予以呈現。為此,指南制訂者必須在亞組分析中考慮不同人群的健康公平性,同時也要注意這可能會排除其他的重要結局,因為 GRADE SoF 表通常只呈現 7 個結局指標。如 NICE 的母嬰營養指南重點關注了對健康不公平性的影響,其將問題構建為“什么樣的營養干預可有效改善孕前、孕中和產后母嬰(5 歲以下)的健康,同時減少營養相關的健康不公平”[21]。將健康公平性作為 SoF 表中的結局指標,方便了指南專家組快速定位是否有關于健康公平性的信息,并在推薦形成過程中加以考慮。
很多因素會影響到健康公平性的效應量大小和方向,如參考的對照組、使用相對還是絕對效應、結局是有利還是不利事件。如觀察美國 1930~2000 年的胃癌病死率在不同性別中的差異,可以發現絕對效應顯示男性和女性的病死率都有所下降,而相對效應卻顯示男性相對女性的病死率有所上升(男/女)[22]。此外,研究者不能因為證據缺乏健康公平性結局指標而不在 SoF 表中呈現,而應在表中明確說明這一空白,以提示未來需要開展相關的研究。具體示例如下。
例 1:社區飲水氟化指南將“健康差異”作為結局指標呈現在分析框架和 SoF 表中,因為社區工作組對減少齲齒相關的社會經濟差異予以了高度重視[23]。指南中用連續性結局(齲齒)的絕對差異測量了社會經濟差異,證據評價過程中僅發現了 3 項無法提供充足證據的研究,不足以得出結論,故在證據表中明確了這一研究差距(表 3)。

例 2:在一項減少成人吸煙的干預系統評價中,“公平性影響”是其主要的結局指標。系統評價將公平性影響作為二分類結局,用絕對效應評估了其差異(低社會經濟狀態與高社會經濟狀態之間發生率差異)的大小。結果顯示,盡管當前已經有減少吸煙相關的健康不公平性的提價和加稅政策,但大眾媒體加劇了健康不公平性。這一系統評價提供的證據足以支持指南將健康不公平性列入干預的結局指標。
3.2.2 考慮與健康公平性相關的患者重要結局
證據綜合過程應該考慮不同結局指標的相對重要性,這些結局由代表弱勢群體的利益相關者所決定。然后研究者需要對相應的證據進行評價,如針對鐮狀細胞貧血患者實施皮下循環泵的不便性[19]。
3.2.3 評價弱勢和優勢個人/群體之間相對效果的差異大小
平均效果往往會掩蓋不同人群之間的效果差異。要研究不同社會經濟地位或其他健康不公平性變量引起的效果差異,就需要評價治療效果在不同人群和環境中的差異。如用 Meta 回歸或亞組分析等統計學方法分析。
應注意不同人群和環境中的總體效果和亞組分析效果的差異。如果總體效果和亞組效果明顯存在差異,則很有必要評價這種效果的可靠性,亞組分析可靠性評價可參見框 1[24]。如果評價結果顯示亞組效果可靠,指南專家組就應同時提供亞組分析結果的相對和絕對效果,然后針對不同亞組的患者提供不同的推薦,或考慮針對所有人群的推薦意見是否需要改編以加強公平性。但當評價結果顯示亞組分析可靠性低時,指南專家組則可提出需要進一步的研究。雖然很少有亞組分析滿足所有標準,但如果滿足了大部分標準,則考慮承認在對不同亞組中效應量的差異。
例 1:不同藥物控制高血壓的效果與不同種族有關。針對高血壓管理的第八版聯合委員會(JNC 8)指南推薦鈣通道阻滯劑或利尿劑作為黑種人高血壓人群的起始治療方案,而對于其他高血壓人群則推薦血管緊張素轉化酶(ACE)抑制劑、血管緊張素受體阻滯劑、鈣通道阻滯劑或利尿劑。該條推薦意見的依據是已有試驗的亞組分析結果,該試驗有 18 102 名參與者,其中 35% 是黑種人,試驗結果表明首先接受 ACE 抑制劑治療的黑種人發生卒中的概率比首先接受鈣通道阻滯劑高出 51%[95%CI(1.22,1.86)],亞組分析的證據質量為中等。然而如果專家組沒有發現亞組效應,而推薦 ACE 作為黑種人的一線治療藥物,則會加劇黑種人和白種人之間的健康差異[25]。

3.2.4 評價基線風險差異及其對劣勢個體或群體的絕對效果的不同影響
在所有人群中:不良事件基線風險高可能引起更多的傷害,有益結局的基線發生率更高則可能帶來更好的絕對效益。SoF 表應呈現每個群體的基線風險和風險差異,并提供相應證據。鑒于所有疾病的疾病負擔在弱勢群體中幾乎都不成比例,這些群體的基線風險就顯得尤其重要。對于特定人群的不良事件發生率或有益結局的基線風險的最佳證據一般來自于真實環境中的觀察性研究數據,而非 RCT。值得一提的是,目前已經有針對不同人群不同風險的證據質量評價的 GRADE 指導。
例 1:WHO 針對 6~59 個月兒童的維生素 A 補充指南[26]。
2011 年,WHO 推薦在維生素 A 缺乏已成為公共衛生問題的國家中,對 6 個月到 5 歲的兒童補充維生素 A(強推薦)。該推薦是基于一篇 Cochrane 系統評價的證據,其中全因病死率的相對風險為 0.76[95%CI(0.69,0.83)]。全因病死率在低風險人群中估計為 0/1 000,在高風險人群(維生素 A 缺乏)中估計為 9/1 000。
例 2:針對原住民或托雷斯海峽島民的預防性健康評估國家指南[27]。
在澳大利亞,指南專家組希望能夠確定對澳大利亞原住民和托雷斯海峽島民采用一系列預防性干預的最佳年齡。鑒于原住民和托雷斯海峽島民中可預防疾病的流行率高于一般人群,專家組推薦其使用預防性干預的年齡更小。例如,不管是哪個年齡段,2 型糖尿病在這類特殊人群中的發病率都是一般人群的 3~4 倍,所以推薦對這類人群的疾病篩查開始于 18 歲,而對普通人群則在 40 歲開始。
3.2.5 評價針對弱勢群體證據的間接性
在考慮健康公平性時,定量證據和定性證據都很重要。對于定性證據綜合的確定性(證據質量)可用 CerQUAL 進行評價,其中“相關性”與間接性性質類似。指南往往會發現缺少對于特殊人群的直接證據,因為這類人群在研究對象中占很小的比例(如移民和難民),就算有也很難將相應數據獨立出來;而還有一些試驗會明確排除一些特殊人群,如孕婦和多種疾病的患者,因為同時合并其他疾病在社會經濟弱勢群體中更為常見,所以研究設定的排除標準就可能導致更多地排除此類人群。在沒有直接證據的情況下,指南制訂者就要必須評價來自其他人群證據的間接性。
因證據間接性進行證據降級需要謹慎,只有在人群差異(如生物學或生理學、社會文化影響或特定的資源問題)極有可能造成干預效果的差異,從而影響干預的利弊結局時,才考慮降級。有時,因間接性而降低證據質量還有可能會增加不公平性,因為這可能導致一項有效的干預不被推薦或弱推薦用于弱勢群體,從而在實踐中導致弱勢群體使用和獲益更少。而實際上,弱勢群體比一般人群更需要接受此類干預,故間接性降級需謹慎。
例 1:加拿大移民指南在對潛在結核(TB)進行篩查方面沒有因間接性降級,盡管納入研究中沒有包括移民,但專家組認為相關證據對于移民來說并不間接[28]。
例 2:美國疾病預防與控制中心(CDC)關于丙型肝炎病毒(HCV)感染者的簡單飲酒咨詢的指南中,因間接性對證據進行了降級。基于一個納入 22 個 RCT 的系統評價證據,CDC 推薦對所有 HCV 感染者進行簡單飲酒篩查和咨詢。該系統評價發現接受干預 1 年后,試驗組的飲酒量相比對照組多下降了 38.42%[95%CI(3 0.91,65.44)]。但由于所有試驗均未納入 HCV 感染者,所以指南專家組因其間接性而降級[29]。
4 GRADE 考慮公平性的方法學挑戰
雖然關于如何利用 GRADE 評價健康公平性的第一階段方法學研究已經完成,但未來仍然存在多項挑戰。
第一,健康公平性評價不是線性過程。在進行證據評價的過程中,可能還需要反復查看指南的關注點,包括對重要弱勢群體的考慮。如 NICE 就在整個指南制訂過程中反復查看其關于健康公平性的關鍵問題。
第二,證據常常存在局限性,如社會人口學特征報告質量差,對不存在統計學差異的亞組分析報告少等。缺乏證據說明不確定在弱勢群體與普通人群中的效果一致還是存在差異,阻礙了間接性的判斷和證據質量評價。當健康公平性的相關證據不足時,指南專家組需要清晰地呈現這一局限性,并透明地報告最后是如何進行決策的。
第三,形成推薦意見時,關于弱勢群體基線風險的流行病學證據很難獲取。地方、區域和國家層面的衛生系統并沒有應用一致或可靠的方法來報告所有重要的社會人口學指標,指南專家組應透明地呈現他們是如何進行基線風險估計的。
第四,評價證據間接性時離不開 SoF 表制作者的臨床和方法學經驗與判斷。GRADE 指南制訂工具 GDT 納入了針對如何制作 SoF 表的詳細清單。其中有針對間接性證據評價的指導,同時也可記錄其他決策過程,從而協助指南工作組的專家進行判斷。
致謝 感謝 GRADE 公平性系列文章原作者 Vivian Welch 等人的引用授權以及寶貴意見,為本文提供了主要的參考資料,也感謝 Vivian Welch 和 Peter Tugwell 對中國 GRADE 健康公平性研究的支持。