本文針對二分類變量結局指標相對(而非絕對)治療效果的不一致性。證據本身不會因不同研究結果具有一致性而升級,但可能因不一致而降低質量級別。衡量一致性的標準包括點估計值的相似性、可信區間的重疊程度以及統計學判定標準包括異質性檢驗和I2。系統評價作者應提出并檢驗少數幾個與患者、干預措施、結局指標以及方法學相關的先驗假設以探尋異質性來源。當不一致性很大且無法解釋時,因不一致性而降低質量級別是恰當的,特別當某些研究顯示有顯著益處而其他顯示無益甚至有害時(而非僅是療效大與療效小的比較)。明顯的亞組效應可能不可靠。如果亞組效應滿足以下條件,其可信度將會增加:基于少數幾個有具體方向的先驗假設、亞組比較來自研究內而非研究間、交互檢驗的P值小、結果有生物學意義。
本文介紹證據質量分級的GRADE方法。GRADE將證據質量分為高、中、低和極低四個級別。該分級應用于證據群,而非針對個別研究。系統評價中,質量反映了我們認為效應估計值正確的把握度。對推薦意見而言,質量反映了我們認為效應估計值足以支持某特定推薦的把握度。隨機對照試驗初定為高質量證據,觀察性研究初定為低質量證據。GRADE中所使用的質量一詞不只是意味著偏倚風險,還可能受研究結果的不精確性、不一致性和間接性,及發表偏倚的影響。此外,若干因素可增加我們對效應估計值的把握度。GRADE提供了一種系統方法來思考并報告各因素。GRADE將評估證據質量的過程與給出推薦建議的過程分開。推薦強度的判斷不僅依賴于證據質量。