空氣污染的現實問題,推動觀察性空氣污染研究進一步發展。世界衛生組織開發了觀察性空氣污染研究的偏倚風險評價工具和使用指南,有助于評價相關研究的潛在偏倚情況。本文介紹了該工具的背景、方法、用途、優缺點和使用注意事項,并分析了該工具的使用場景,以期為研究人員撰寫相關主題系統評價與Meta分析提供更科學的偏倚評價手段,同時為觀察性空氣污染研究寫作提供規范參考,提高研究報告質量。
引用本文: 梁明明, 郭先威, 黎寧, 宋秋俠, 王浩, 蘇皖迎, 梁琪偉, 丁秀秀, 葉鵬鵬, 段蕾蕾, 孫業桓. 觀察性空氣污染研究的質量評價工具—世界衛生組織全球空氣質量指南RoB工具介紹. 中國循證醫學雜志, 2022, 22(3): 360-364. doi: 10.7507/1672-2531.202110032 復制
空氣污染是全球最重要的可避免健康風險之一。其影響易被忽視(導致的器官損傷常常被歸因于相關器官自身原因)且難以測量,因此被世界衛生組織(World Health Organization,WHO)稱為“無聲殺手”[1]。空氣污染研究是指調查空氣污染物(如直徑小于2.5和10微米的顆粒物、二氧化氮、二氧化硫、一氧化碳和臭氧)的短期暴露或長期暴露的研究[2]。這類研究旨在探究空氣污染對健康的影響,包括對于非傳染性疾病[1]、傳染性疾病[3]及自然原因或特異性原因的死亡率研究[4]。而空氣污染短期研究是指調查空氣污染暴露的急性影響研究,例如短時間內的時間序列分析、分布滯后分析;空氣污染長期研究則是指評估空氣污染的慢性影響的研究,例如暴露多年的隊列生存分析。從流行病學方法角度來看,此類的空氣污染研究被歸于觀察性研究[5]。
觀察性空氣污染研究的發表逐年增加,相關Meta分析也逐年興起,為公共衛生領域研究證據更新和循證決策提供了重要信息。但是觀察性研究與隨機對照試驗相比,更易受選擇性偏倚風險影響[6-7],應用專業偏倚風險評價工具對觀察性空氣污染研究進行偏倚風險評價的重要意義不言而喻。
1 WHO RoB工具
經檢索,目前已發表的Meta分析中,針對觀察性空氣污染研究的質量評價方法主要包括:① 采用推薦的觀察性研究評價工具(如紐卡斯爾-渥太華量表)[4,8];② 觀察性研究報告的質量聲明[9];③ 研究作者自行描述的質量評價條目[10]。
對于觀察性空氣污染研究來說,常采用生態學研究設計,在研究方法上以時間序列分析或病例交叉分析為主。但既往被推薦的觀察性研究評價工具多是針對隊列研究、病例-對照研究或橫斷面研究3種類型的觀察性研究分別制定。常用的觀察性研究評價工具受限于自身要求,對于觀察性空氣污染研究中存在的混雜偏倚(confounding)、選擇偏倚(selection bias)、暴露評估偏倚(exposure assessment)、結果測量偏倚(outcome measurement)、缺失數據偏倚(missing data)和選擇性報道偏倚(selective reporting)可能缺少更具針對性的評價條目。觀察性研究系統評價的報告指南也建議,研究者應根據一般原則為不同的系統評價開發定制的評價工具[11]。WHO為此開發了用于評價觀察性空氣污染研究偏倚風險的評價工具(risk of bias assessment instrument,RoB)和相關指南,以更具針對性地評價觀察性空氣污染研究潛在的偏倚風險。
在RoB中,每個主題(暴露和結果)都根據研究問題進行,以人口、暴露、對照、結果和研究設計(population, exposure, comparator, outcome, and study design,PECOS)為框架,內容包括主題(系統評價特定PECOS)、偏倚風險評價的日期、評價人員編碼、研究編碼及相關關鍵和其他/額外的潛在混雜因素評價條目。研究中使用的工具由WHO Global Air Quality Guidelines Working Group的成員迭代開發。
2 偏倚風險評價方法和解釋
在偏倚評價工具中,各偏倚風險條目都提供了具體條目的指導和建議,以幫助評價人員判斷相應研究是否存在“低”、“中”或“高”等級的偏倚風險。由于需要評價者對每個條目的偏倚風險都做出判斷,因此要求評價人員提供具體判斷依據并登記于表格中。各條目的具體評價內容可訪問WHO空氣污染研究偏倚評價工具在線網站,進行查看(網址:https://www.euro.who.int/en/health-topics/environment-and-health/air-quality/publications)。本文對RoB中重要的偏倚風險進行介紹。
2.1 混雜偏倚
除偏倚評價工具提供的關于混雜因素的判斷建議外,質量評價過程中還要求評價人員考慮觀察性空氣污染研究對長期趨勢的控制情況。盡管PECOS已要求評價者判斷研究對象暴露量與結果的短期變化關系,但暴露的長期趨勢可能產生其他潛在的混雜影響。評價人員須區分影響研究的短期趨勢和長期趨勢,以在評價暴露和結果關系時確定相互之間的聯系。回歸模型或可用于觀察性空氣污染研究,在分析中考慮長期趨勢的影響。可供選擇的模型方案包括:① 時間分層模型(time stratified model);② 周期函數(periodic functions);③ 柔性樣條函數(flexible spline functions)等[12]。
此外,長期趨勢還可能影響空氣污染研究的偏倚方向(最終導致結果偏向還是偏離0點),這也需要在評價過程中由評價人員進行判斷。
2.2 選擇性偏倚
觀察性空氣污染研究中,如果某些符合條件的研究參與者被排除在外,導致暴露與結果之間的聯系與基于PECOS觀察結果不同,存在目標人群的選擇性偏倚。
2.3 暴露評估
在暴露測量中,感興趣的變量是室外污染物的個人暴露,即研究對象所接觸的室外污染物濃度。但多數人70%以上的時間都處于室內環境,因此關注個人暴露空氣污染的室內外的時空變化相關性同樣非常重要。
有研究表明,這些相關性往往處于中等或較高的水平。大規模典型空氣污染研究很難進行個人或室內監測,因此,風險評價工具的重點仍是評價測量室外濃度的各種方式所導致的偏倚風險。
對于空氣污染的短期、日間變化對死亡率和住院率的日間變化影響的研究,通常依賴于在特定城市或區域內的空氣污染常規測量,因此評價人員應該考慮以下問題:① 監測儀器的質量保證方法是否被記錄?如研究使用具有質量保證的程序或類似程序的國家機構網絡數據,可判斷為低偏倚風險;如居住或工作在一個確定的地理區域內,研究未使用具有質量保證程序的監測數據,其暴露水平是經假設推斷得出,則可判斷研究為高偏倚風險。② 監測點數據是否代表研究對象戶外暴露的日常變化?例如,獲得數據只限于城市區域或特定區域,監測點數據可代表研究對象戶外暴露的日常變化,則判斷為低偏倚風險;如果監測點數據可能受特定空氣污染源的明顯影響,如特定繁忙的交通街道周圍或工業場所,監測點數據可能無法代表所有研究對象戶外暴露的日常變化,則判斷為高偏倚風險。③ 報告數據完整性的標準如何?報告數據完整性>18小時/天、>75%天/月等可判斷為低偏倚風險;報告數據完整性≤18小時/天、≤75%天/月等可判斷為高偏倚風險。
關于空氣污染長期空間變化對死亡率和發病率結果的影響依賴于各種測量和建模工作。長期空氣污染濃度的空間變化受污染源強度、道路網、地形等空間變化的影響。在一些能夠使用密集監測網絡的研究中,常規監測站之間數據可使用插值算法獲得。在大多數情況下,研究人員綜合使用監測數據、分散建模(dispersion modelling)、土地利用回歸建模(land use regression modelling)和衛星觀測來估計相關的空間變化。偏倚工具評價人員在偏倚評價過程中需要考慮以下問題:① 研究中使用的暴露模型對于充分預測暴露的能力:比如模型根據測量結果進行了充分評估,此類情況可判斷為低偏倚風險;但如若未對測量結果進行充分評估,則應判斷為高偏倚風險。② 長期研究中相關暴露的時間穩定性:暴露間的對比是針對特定年份產生的,但如果其可代表其他年份的流行病學結果,則判斷為低偏倚風險;如果不具有代表性,則應判斷為高偏倚風險。
通常情況下,諸如這類細節會出現在獨立的技術性文件中,評價人員應確定相關內容被正確引用。
2.4 結果測量
該條目是評價研究是否在結果測量中,因分類錯誤或在測量時引入誤差而產生偏倚。觀察性空氣污染研究結果的測量可能各不相同,因此應對每一項結果進行逐一核查。
2.5 缺失數據
該條目旨在評價當并非所有數據都可使用,且缺失數據與暴露和結果同時相關時,可能導致的潛在偏倚。這種缺失可能是由于失訪、錯過預約或被研究者排除在外所導致。應考慮最佳和最差情況以確定缺失數據對結果影響(如所有缺失人員屬于暴露組或所有缺失人員都屬于對照組)。同樣,當暴露組和對照組之間的缺失數據不同時,也應考慮其潛在影響。
2.6 選擇性報告
評價者應考慮,是否有理由支持報告的結果并不同于研究中測量結果,或報告結果懷疑是經人為選擇。這可通過參考研究方案(protocol)來確定主要結果是否在方案和最終報告中保持一致來判斷。若研究僅報告隊列中的一個亞組,也可確定這種情況。如果沒有已發表的研究方案,有時研究的方法學部分可能是先驗研究計劃的最佳參考標準。
2.7 對結果總體判斷
對某條目作出總體判斷時適用以下方法:如果任何子條目被評為高偏倚風險,則整個條目被評為高偏倚風險;如果所有子條目的偏倚風險評為低偏倚風險,則整個條目被評為低偏倚風險;當其中一個子條目被評為中等偏倚風險,且其他子條目都沒有被判定為高偏倚風險,則整個條目被評為中等偏倚風險。
3 RoB工具操作和局限性
本研究結合Cai等[8]的Meta分析對如何使用RoB工具予以介紹。Cai等納入了6篇關于空氣污染物短期暴露與高血壓風險的研究[13-18],納入研究主要為病例交叉研究和時間序列研究。我們檢索到以上6篇原始研究,并通過RoB工具對其進行風險評價(表1)。總體而言,RoB工具評價結果顯示納入研究的偏倚風險主要為低等級和中等級風險,高風險偏倚結果主要出現在對于缺失數據的報告(或相關研究未報告缺失數據的處理方式)。需要注意的是,Cai等使用紐卡斯爾-渥太華量表對于其中Nascimento等[17]研究的風險評價只有2分,這導致該研究被歸納為高風險研究。但在使用RoB工具進行評價的過程中,我們認為該研究雖在混雜偏倚的控制上仍需改進,但在選擇偏倚、暴露評估、結果測量、缺失數據和選擇性報道方面,都提供了相應的風險控制手段。在該Meta分析結果中,作者報告大多數納入研究之間沒有顯著異質性,也一定程度證實了納入研究間的偏倚風險水平可能較為接近。

需要注意的是,對于觀察性空氣污染研究的質量評價,目前尚無一種通用的評價工具。但RoB工具在相關領域應用中無疑更易于設計和實施,越來越多的觀察性空氣污染研究的Meta分析嘗試使用該工具對納入研究進行偏倚風險評價(表2)。Meta分析的研究者們[19-22]認為,在研究過程中使用為空氣污染研究而開發的RoB工具,將有助于獲得更可靠的偏倚風險評價和Meta分析結果。

同樣需要注意的是,目前版本的RoB工具可能仍然不夠敏感,無法評價原始研究中所有的潛在偏倚風險。例如,對混雜因素條目的判斷依賴于評價研究中是否包含所有關鍵和潛在的混雜因素。而潛在混雜因素的內容非常復雜,這導致多數研究可能因此被評為中等偏倚風險。此外,RoB工具是WHO在2020年為環境流行病學研究發布的新的質量評價工具,因此現階段該工具可能存在其他潛在應用風險。該工具的推廣和使用仍需要專家學者進一步對其信效度進行檢驗。
RoB工具提供了一個框架來系統地評價觀察性空氣污染研究中的潛在偏倚。隨著RoB工具的進一步改進和廣泛應用,將有利于提高相關主題系統評價與Meta分析的實施質量和評價結果,同時RoB工具也為觀察性空氣污染研究提供了規范參考和研究設計建議。
空氣污染是全球最重要的可避免健康風險之一。其影響易被忽視(導致的器官損傷常常被歸因于相關器官自身原因)且難以測量,因此被世界衛生組織(World Health Organization,WHO)稱為“無聲殺手”[1]。空氣污染研究是指調查空氣污染物(如直徑小于2.5和10微米的顆粒物、二氧化氮、二氧化硫、一氧化碳和臭氧)的短期暴露或長期暴露的研究[2]。這類研究旨在探究空氣污染對健康的影響,包括對于非傳染性疾病[1]、傳染性疾病[3]及自然原因或特異性原因的死亡率研究[4]。而空氣污染短期研究是指調查空氣污染暴露的急性影響研究,例如短時間內的時間序列分析、分布滯后分析;空氣污染長期研究則是指評估空氣污染的慢性影響的研究,例如暴露多年的隊列生存分析。從流行病學方法角度來看,此類的空氣污染研究被歸于觀察性研究[5]。
觀察性空氣污染研究的發表逐年增加,相關Meta分析也逐年興起,為公共衛生領域研究證據更新和循證決策提供了重要信息。但是觀察性研究與隨機對照試驗相比,更易受選擇性偏倚風險影響[6-7],應用專業偏倚風險評價工具對觀察性空氣污染研究進行偏倚風險評價的重要意義不言而喻。
1 WHO RoB工具
經檢索,目前已發表的Meta分析中,針對觀察性空氣污染研究的質量評價方法主要包括:① 采用推薦的觀察性研究評價工具(如紐卡斯爾-渥太華量表)[4,8];② 觀察性研究報告的質量聲明[9];③ 研究作者自行描述的質量評價條目[10]。
對于觀察性空氣污染研究來說,常采用生態學研究設計,在研究方法上以時間序列分析或病例交叉分析為主。但既往被推薦的觀察性研究評價工具多是針對隊列研究、病例-對照研究或橫斷面研究3種類型的觀察性研究分別制定。常用的觀察性研究評價工具受限于自身要求,對于觀察性空氣污染研究中存在的混雜偏倚(confounding)、選擇偏倚(selection bias)、暴露評估偏倚(exposure assessment)、結果測量偏倚(outcome measurement)、缺失數據偏倚(missing data)和選擇性報道偏倚(selective reporting)可能缺少更具針對性的評價條目。觀察性研究系統評價的報告指南也建議,研究者應根據一般原則為不同的系統評價開發定制的評價工具[11]。WHO為此開發了用于評價觀察性空氣污染研究偏倚風險的評價工具(risk of bias assessment instrument,RoB)和相關指南,以更具針對性地評價觀察性空氣污染研究潛在的偏倚風險。
在RoB中,每個主題(暴露和結果)都根據研究問題進行,以人口、暴露、對照、結果和研究設計(population, exposure, comparator, outcome, and study design,PECOS)為框架,內容包括主題(系統評價特定PECOS)、偏倚風險評價的日期、評價人員編碼、研究編碼及相關關鍵和其他/額外的潛在混雜因素評價條目。研究中使用的工具由WHO Global Air Quality Guidelines Working Group的成員迭代開發。
2 偏倚風險評價方法和解釋
在偏倚評價工具中,各偏倚風險條目都提供了具體條目的指導和建議,以幫助評價人員判斷相應研究是否存在“低”、“中”或“高”等級的偏倚風險。由于需要評價者對每個條目的偏倚風險都做出判斷,因此要求評價人員提供具體判斷依據并登記于表格中。各條目的具體評價內容可訪問WHO空氣污染研究偏倚評價工具在線網站,進行查看(網址:https://www.euro.who.int/en/health-topics/environment-and-health/air-quality/publications)。本文對RoB中重要的偏倚風險進行介紹。
2.1 混雜偏倚
除偏倚評價工具提供的關于混雜因素的判斷建議外,質量評價過程中還要求評價人員考慮觀察性空氣污染研究對長期趨勢的控制情況。盡管PECOS已要求評價者判斷研究對象暴露量與結果的短期變化關系,但暴露的長期趨勢可能產生其他潛在的混雜影響。評價人員須區分影響研究的短期趨勢和長期趨勢,以在評價暴露和結果關系時確定相互之間的聯系。回歸模型或可用于觀察性空氣污染研究,在分析中考慮長期趨勢的影響。可供選擇的模型方案包括:① 時間分層模型(time stratified model);② 周期函數(periodic functions);③ 柔性樣條函數(flexible spline functions)等[12]。
此外,長期趨勢還可能影響空氣污染研究的偏倚方向(最終導致結果偏向還是偏離0點),這也需要在評價過程中由評價人員進行判斷。
2.2 選擇性偏倚
觀察性空氣污染研究中,如果某些符合條件的研究參與者被排除在外,導致暴露與結果之間的聯系與基于PECOS觀察結果不同,存在目標人群的選擇性偏倚。
2.3 暴露評估
在暴露測量中,感興趣的變量是室外污染物的個人暴露,即研究對象所接觸的室外污染物濃度。但多數人70%以上的時間都處于室內環境,因此關注個人暴露空氣污染的室內外的時空變化相關性同樣非常重要。
有研究表明,這些相關性往往處于中等或較高的水平。大規模典型空氣污染研究很難進行個人或室內監測,因此,風險評價工具的重點仍是評價測量室外濃度的各種方式所導致的偏倚風險。
對于空氣污染的短期、日間變化對死亡率和住院率的日間變化影響的研究,通常依賴于在特定城市或區域內的空氣污染常規測量,因此評價人員應該考慮以下問題:① 監測儀器的質量保證方法是否被記錄?如研究使用具有質量保證的程序或類似程序的國家機構網絡數據,可判斷為低偏倚風險;如居住或工作在一個確定的地理區域內,研究未使用具有質量保證程序的監測數據,其暴露水平是經假設推斷得出,則可判斷研究為高偏倚風險。② 監測點數據是否代表研究對象戶外暴露的日常變化?例如,獲得數據只限于城市區域或特定區域,監測點數據可代表研究對象戶外暴露的日常變化,則判斷為低偏倚風險;如果監測點數據可能受特定空氣污染源的明顯影響,如特定繁忙的交通街道周圍或工業場所,監測點數據可能無法代表所有研究對象戶外暴露的日常變化,則判斷為高偏倚風險。③ 報告數據完整性的標準如何?報告數據完整性>18小時/天、>75%天/月等可判斷為低偏倚風險;報告數據完整性≤18小時/天、≤75%天/月等可判斷為高偏倚風險。
關于空氣污染長期空間變化對死亡率和發病率結果的影響依賴于各種測量和建模工作。長期空氣污染濃度的空間變化受污染源強度、道路網、地形等空間變化的影響。在一些能夠使用密集監測網絡的研究中,常規監測站之間數據可使用插值算法獲得。在大多數情況下,研究人員綜合使用監測數據、分散建模(dispersion modelling)、土地利用回歸建模(land use regression modelling)和衛星觀測來估計相關的空間變化。偏倚工具評價人員在偏倚評價過程中需要考慮以下問題:① 研究中使用的暴露模型對于充分預測暴露的能力:比如模型根據測量結果進行了充分評估,此類情況可判斷為低偏倚風險;但如若未對測量結果進行充分評估,則應判斷為高偏倚風險。② 長期研究中相關暴露的時間穩定性:暴露間的對比是針對特定年份產生的,但如果其可代表其他年份的流行病學結果,則判斷為低偏倚風險;如果不具有代表性,則應判斷為高偏倚風險。
通常情況下,諸如這類細節會出現在獨立的技術性文件中,評價人員應確定相關內容被正確引用。
2.4 結果測量
該條目是評價研究是否在結果測量中,因分類錯誤或在測量時引入誤差而產生偏倚。觀察性空氣污染研究結果的測量可能各不相同,因此應對每一項結果進行逐一核查。
2.5 缺失數據
該條目旨在評價當并非所有數據都可使用,且缺失數據與暴露和結果同時相關時,可能導致的潛在偏倚。這種缺失可能是由于失訪、錯過預約或被研究者排除在外所導致。應考慮最佳和最差情況以確定缺失數據對結果影響(如所有缺失人員屬于暴露組或所有缺失人員都屬于對照組)。同樣,當暴露組和對照組之間的缺失數據不同時,也應考慮其潛在影響。
2.6 選擇性報告
評價者應考慮,是否有理由支持報告的結果并不同于研究中測量結果,或報告結果懷疑是經人為選擇。這可通過參考研究方案(protocol)來確定主要結果是否在方案和最終報告中保持一致來判斷。若研究僅報告隊列中的一個亞組,也可確定這種情況。如果沒有已發表的研究方案,有時研究的方法學部分可能是先驗研究計劃的最佳參考標準。
2.7 對結果總體判斷
對某條目作出總體判斷時適用以下方法:如果任何子條目被評為高偏倚風險,則整個條目被評為高偏倚風險;如果所有子條目的偏倚風險評為低偏倚風險,則整個條目被評為低偏倚風險;當其中一個子條目被評為中等偏倚風險,且其他子條目都沒有被判定為高偏倚風險,則整個條目被評為中等偏倚風險。
3 RoB工具操作和局限性
本研究結合Cai等[8]的Meta分析對如何使用RoB工具予以介紹。Cai等納入了6篇關于空氣污染物短期暴露與高血壓風險的研究[13-18],納入研究主要為病例交叉研究和時間序列研究。我們檢索到以上6篇原始研究,并通過RoB工具對其進行風險評價(表1)。總體而言,RoB工具評價結果顯示納入研究的偏倚風險主要為低等級和中等級風險,高風險偏倚結果主要出現在對于缺失數據的報告(或相關研究未報告缺失數據的處理方式)。需要注意的是,Cai等使用紐卡斯爾-渥太華量表對于其中Nascimento等[17]研究的風險評價只有2分,這導致該研究被歸納為高風險研究。但在使用RoB工具進行評價的過程中,我們認為該研究雖在混雜偏倚的控制上仍需改進,但在選擇偏倚、暴露評估、結果測量、缺失數據和選擇性報道方面,都提供了相應的風險控制手段。在該Meta分析結果中,作者報告大多數納入研究之間沒有顯著異質性,也一定程度證實了納入研究間的偏倚風險水平可能較為接近。

需要注意的是,對于觀察性空氣污染研究的質量評價,目前尚無一種通用的評價工具。但RoB工具在相關領域應用中無疑更易于設計和實施,越來越多的觀察性空氣污染研究的Meta分析嘗試使用該工具對納入研究進行偏倚風險評價(表2)。Meta分析的研究者們[19-22]認為,在研究過程中使用為空氣污染研究而開發的RoB工具,將有助于獲得更可靠的偏倚風險評價和Meta分析結果。

同樣需要注意的是,目前版本的RoB工具可能仍然不夠敏感,無法評價原始研究中所有的潛在偏倚風險。例如,對混雜因素條目的判斷依賴于評價研究中是否包含所有關鍵和潛在的混雜因素。而潛在混雜因素的內容非常復雜,這導致多數研究可能因此被評為中等偏倚風險。此外,RoB工具是WHO在2020年為環境流行病學研究發布的新的質量評價工具,因此現階段該工具可能存在其他潛在應用風險。該工具的推廣和使用仍需要專家學者進一步對其信效度進行檢驗。
RoB工具提供了一個框架來系統地評價觀察性空氣污染研究中的潛在偏倚。隨著RoB工具的進一步改進和廣泛應用,將有利于提高相關主題系統評價與Meta分析的實施質量和評價結果,同時RoB工具也為觀察性空氣污染研究提供了規范參考和研究設計建議。