診斷準確性研究摘要報告規范(Standards for Reporting of Diagnostic Accuracy for Abstracts,STARD for Abstracts)是用于規范期刊與學術會議論文摘要中診斷準確性研究的報告,BMJ 2017 年 8 月發表了全文。本文主要介紹了 STARD for Abstracts 規范的報告條目,并對其進行解讀,期望為國內研究人員撰寫和報告診斷準確性研究的摘要提供借鑒和參考。
引用本文: 田金徽, 趙曄, 馬文娟, 杜亮. 診斷準確性研究摘要報告規范(STARD for Abstracts)解讀. 中國循證醫學雜志, 2017, 17(9): 1096-1099. doi: 10.7507/1672-2531.201709001 復制
對于與診斷準確性研究有關的學術會議論文或期刊論文而言,清楚、明了、信息充足的摘要是非常重要的,因為臨床醫生和研究人員經常根據摘要信息對此研究進行最初的評判,并決定是否閱讀全文。另外,診斷試驗系統評價研究員在系統評價文獻篩選過程中也需要依靠摘要信息判斷是否納入或排除診斷性研究,而摘要報告不全會造成選擇性偏倚,在這種情況下,這些論文摘要提供的信息就顯得更加重要[1]。由此可見,診斷準確性研究的摘要在具有獨立性的基礎上,還需擁有與文章同等量的主要信息,即使不閱讀全文,也能獲得必要的信息。2017 年 8 月,Cohen 等[2]在 BMJ 上發表了診斷準確性研究摘要報告規范(Standards for Reporting of Diagnostic Accuracy for Abstracts,STARD for Abstracts),本文擬對 STARD for Abstracts 規范的報告條目進行解讀,期望為國內研究人員撰寫和報告診斷準確性研究的摘要提供借鑒和參考。
1 基本概念
診斷準確性研究是用來評估某一診斷試驗或方法將一組研究對象區分為具有或不具有某種狀況能力的研究[3]。
診斷性試驗(diagnostic test),指臨床上用于疾病診斷的各種試驗,涉及臨床采用的各種診斷手段和方法,它可為疾病正確診斷及其鑒別診斷提供重要依據,同時也可用于判斷疾病的嚴重程度,評估疾病的臨床過程、治療效果及其預后,篩選無癥狀的患者和檢測藥物不良反應等[1]。
金標準(gold standard)又稱標準診斷試驗(standard diagnostic test)、參考標準(reference test)等,是指當前醫學界公認、診斷特定疾病最可靠的診斷方法,或一種被廣泛接受/認可、具有高敏感度和高特異度的診斷方法。對大多數疾病而言,活體病理組織檢查、手術探查、尸體解剖等均是具有普遍意義的金標準,也可由專家制定并得到的臨床診斷標準和長期臨床隨訪所獲得的肯定診斷作為金標準[1]。
開展一項診斷準確性研究時,首先應確立金標準。其次是選擇研究對象:理想的研究人群不僅包括真正的未患病人群,也包括亞臨床狀態的人群、疾病早期階段的人群以及那些臨床需要進行鑒別診斷的患者。樣本越有代表性,對診斷試驗的準確性評估就越趨于真實。雖然最理想的方法是從被測人群中進行隨機抽樣,但這種做法在現實中難以實現。目前比較可行的方法是選取某一段時期內,連續納入那些因疑似某疾病而在研究者醫院中就診的患者。第三,要估算樣本量。第四,要同步獨立、盲法比較測量結果。最后進行診斷試驗的可靠性分析。
2 STARD for Abstracts 的制定過程
診斷準確性研究摘要報告規范的制定主要參考《衛生研究報告指南制定手冊》[4],過程分 4 步:① 收集診斷準確性研究摘要潛在相關的 39 個條目,這些條目基于診斷準確性研究的報告規范(Standards for Reporting of Diagnostic Accuracy,STARD)、CONSORT 摘要、PRISMA 摘要、QUADAS-2、現有關于結構化報告和評價期刊摘要質量的研究以及已經發表的關于診斷準確性研究摘要評價的論文。STARD Group 的執行委員會刪除了 12 個不重要的條目,如樣本量計算等,初步確定了 27 個條目,采用德爾菲法進行調查;② 針對 27 個條目采用 SurveyMonkey? 對 STARD Group 所有 85 個成員(臨床流行病專家、統計學專家、期刊編輯和其他利益相關者)進行三輪在線調查,確定了相關條目;③ STARD Group 的執行委員會撰寫 STARD for Abstracts 的清單、聲明和相關材料,并在執行委員會之間通過 Email 形成共識,最終確定報告條目;④ 出版和發表報告規范,并鼓勵對報告規范進行翻譯以便更好地傳播和使用。
3 STARD for Abstracts 條目解讀

3.1 條目 1
可以判斷為診斷準確性試驗,至少應該包括敏感度、特異度、預測值或受試者工作曲線下面積等準確性指標的其中之一,包括待評價診斷試驗診斷目標疾病的診斷準確性/敏感度與特異度/預測值等[(diagnostic accuracy/sensitivity and specificity/predictive value...)of(index test)for diagnosing(target condition)]。
3.2 條目 2
明確闡明診斷準確性研究的目的,如評價待評價診斷試驗診斷疑似患者的診斷準確性/敏感度與特異度/預測值[to evaluate the(diagnostic accuracy/sensitivity and specificity/predictive value...)of(index test)in patients with suspected(target condition)]。
3.3 條目 3
準確說明數據的收集方式非常重要,因為前瞻性研究設計研究的偏倚可能比回顧性研究更少。可以采用如下描述:在這篇前瞻性研究/回顧性研究[In this(prospective/retrospective)study…]、我們實施前瞻性研究/回顧性研究[We conducted a(prospective/retrospective)study…]和前瞻性/回顧性收集數據[Data were collected(prospectively/retrospectively)…]等。
3.4 條目 4
研究對象納入標準包括研究對象的來源與范圍,但必須清楚:① 研究者想通過待評價診斷試驗解決什么臨床問題,擬回答臨床問題的定義決定了研究對象的選擇范圍;② 患者的樣本是否有代表性。但要注意研究場所,一般來說,在三級醫院就診的患者嚴重疾病的比例高于在社區醫院就診者。如果基于三級醫院的患者開展診斷試驗,則可能高估診斷試驗的靈敏度,但低估其特異度,因為這些患者的疾病更重、合并癥較多。相反,如果是在初級衛生保健單位開展診斷試驗,則相同的診斷試驗可能有較低的靈敏度和較高的特異度。因此,在研究經費等可利用資源允許時,可以考慮從多家、不同級別的醫療機構招募研究對象。可以采用如下描述:納入 X~Y 歲成人/兒童/男性/女性來自 XX 國家的單/多中心的初級/二級/三級醫療機構基于當前癥狀和體征判斷為疑似患者,且接受待評價診斷試驗和金標準[eligible for inclusion were(adults/children/men/women)(age X to Y years)with suspected(target condition)…based on(presenting signs and symptoms)…who underwent(index test)and(reference standard)[mono/multi] centre study in(primary/secondary/tertiary)care in(country)…]。
3.5 條目 5
理想的研究對象包括真正未患病人群,又包括亞臨床狀態的人群和疾病早期階段的人群以及那些臨床需要鑒別診斷的患者。樣本越有代表性,對診斷試驗的準確性評估就越趨于真實。當然最科學的方法是從被測人群中隨機抽樣,這種做法在現實中難以實現,比較可行的方法是選取某一段時期,連續納入那些因疑似某疾病而在研究者醫院中就診的患者。可以采用如下描述:連續納入/隨機選擇/方便抽樣招募研究對象[a(consecutive series/random sample/convenience sample)of patients with ...]。
3.6 條目 6
詳細描述待評價診斷試驗和參考標準,可以采用如下描述:所有研究對象均接受待評價診斷試驗(描述關鍵步驟/環節)[all patients underwent(index test with key elements of description)...],將 XX 試驗(描述關鍵步驟/環節)作為參考標準[(reference standard with key elements of description)was used as the reference standard…]。
3.7 條目 7
詳細描述納入分析的研究對象中患和不患目標疾病的人數,有助于分析有無缺失數據。可以采用如下描述:X 名疑似患者最終納入分析,Y 名疑似患者最終確定患目標疾病,排除 Z[of(X)patients included in the analysis,the diagnosis of(target condition)was confirmed in(Y)and excluded in(Z)…]。
3.8 條目 8
盡可能描述待評價診斷試驗準確性指標的點估計值及 95% 可信區間,這樣有助于對精確性進行評估,可以采用如下描述:待評價診斷試驗的敏感度與特異度/陽性預測值與陰性預測值/陽性似然比與陰性似然比的分別值分別為 A[95%CI(B,C)]和 D[95%CI(E,F)][The(sensitivity and specificity/positive and negative predictive values/positive and negative likelihood ratios)of(index test)were A(95%CI B to C)and [D(95%CI E to F),respectively]。
3.9 條目 9
對研究結果進行概括和總結,有助于臨床醫師在臨床使用待評價診斷試驗。可以采用如下描述:待評價診斷試驗顯示高/低/不足準確性/敏感度/特異度發現/診斷目標疾病[(Index test)showed(high/low/insufficient)(accuracy/sensitivity/specificity)for detecting/diagnosing(target condition)]。
3.10 條目 10
對待評價診斷試驗的臨床實踐意義描述,對于臨床醫生選擇待評價診斷試驗使用的研究對象和場所。可以采用如下描述:待評價診斷試驗應該/不應該/可以/不可以用于初級/二級/三級醫療機構診斷/篩查/分期/監測/監控患者/成人/兒童疑似目標疾病[(Index test)(should/should not/could/could not…)be used for(diagnosis/screening/staging/monitoring/surveillance…)in(patients/adults/children)suspected of(target condition)seen in(primary/secondary/tertiary)care]。
3.11 條目 11
對診斷準確性研究進行注冊可以保證研究的前瞻性,減少選擇性報告偏倚發生的可能性。在撰寫和報告診斷準確性研究時,研究人員應該明確說明是否有研究方案存在,并提供現有的注冊信息,如:注冊機構名稱:注冊號碼[(Name of registry):(Registration number)]。
4 小結
與診斷準確性研究的全文相比,診斷準確性研究的摘要提供的信息有限,但是如果能夠依據 STARD for Abstracts 條目對其進行報告,不但有助于提高期刊摘要質量,同時有助于期刊和會議論文的二次利用(如撰寫系統評價)。為此,本文將 STARD for Abstracts 介紹給國內學者,旨在促進國內診斷準確性研究的研究人員規范化地撰寫和報告診斷準確性研究的摘要。同時建議國內刊載診斷準確性研究的期刊能夠盡快將 STARD for Abstracts 引入稿約,要求和督促學者嚴格依據 STARD for Abstracts 執行、撰寫和報告診斷準確性研究的摘要,這將對改善診斷準確性研究摘要的報告質量起到無可替代的作用。
對于與診斷準確性研究有關的學術會議論文或期刊論文而言,清楚、明了、信息充足的摘要是非常重要的,因為臨床醫生和研究人員經常根據摘要信息對此研究進行最初的評判,并決定是否閱讀全文。另外,診斷試驗系統評價研究員在系統評價文獻篩選過程中也需要依靠摘要信息判斷是否納入或排除診斷性研究,而摘要報告不全會造成選擇性偏倚,在這種情況下,這些論文摘要提供的信息就顯得更加重要[1]。由此可見,診斷準確性研究的摘要在具有獨立性的基礎上,還需擁有與文章同等量的主要信息,即使不閱讀全文,也能獲得必要的信息。2017 年 8 月,Cohen 等[2]在 BMJ 上發表了診斷準確性研究摘要報告規范(Standards for Reporting of Diagnostic Accuracy for Abstracts,STARD for Abstracts),本文擬對 STARD for Abstracts 規范的報告條目進行解讀,期望為國內研究人員撰寫和報告診斷準確性研究的摘要提供借鑒和參考。
1 基本概念
診斷準確性研究是用來評估某一診斷試驗或方法將一組研究對象區分為具有或不具有某種狀況能力的研究[3]。
診斷性試驗(diagnostic test),指臨床上用于疾病診斷的各種試驗,涉及臨床采用的各種診斷手段和方法,它可為疾病正確診斷及其鑒別診斷提供重要依據,同時也可用于判斷疾病的嚴重程度,評估疾病的臨床過程、治療效果及其預后,篩選無癥狀的患者和檢測藥物不良反應等[1]。
金標準(gold standard)又稱標準診斷試驗(standard diagnostic test)、參考標準(reference test)等,是指當前醫學界公認、診斷特定疾病最可靠的診斷方法,或一種被廣泛接受/認可、具有高敏感度和高特異度的診斷方法。對大多數疾病而言,活體病理組織檢查、手術探查、尸體解剖等均是具有普遍意義的金標準,也可由專家制定并得到的臨床診斷標準和長期臨床隨訪所獲得的肯定診斷作為金標準[1]。
開展一項診斷準確性研究時,首先應確立金標準。其次是選擇研究對象:理想的研究人群不僅包括真正的未患病人群,也包括亞臨床狀態的人群、疾病早期階段的人群以及那些臨床需要進行鑒別診斷的患者。樣本越有代表性,對診斷試驗的準確性評估就越趨于真實。雖然最理想的方法是從被測人群中進行隨機抽樣,但這種做法在現實中難以實現。目前比較可行的方法是選取某一段時期內,連續納入那些因疑似某疾病而在研究者醫院中就診的患者。第三,要估算樣本量。第四,要同步獨立、盲法比較測量結果。最后進行診斷試驗的可靠性分析。
2 STARD for Abstracts 的制定過程
診斷準確性研究摘要報告規范的制定主要參考《衛生研究報告指南制定手冊》[4],過程分 4 步:① 收集診斷準確性研究摘要潛在相關的 39 個條目,這些條目基于診斷準確性研究的報告規范(Standards for Reporting of Diagnostic Accuracy,STARD)、CONSORT 摘要、PRISMA 摘要、QUADAS-2、現有關于結構化報告和評價期刊摘要質量的研究以及已經發表的關于診斷準確性研究摘要評價的論文。STARD Group 的執行委員會刪除了 12 個不重要的條目,如樣本量計算等,初步確定了 27 個條目,采用德爾菲法進行調查;② 針對 27 個條目采用 SurveyMonkey? 對 STARD Group 所有 85 個成員(臨床流行病專家、統計學專家、期刊編輯和其他利益相關者)進行三輪在線調查,確定了相關條目;③ STARD Group 的執行委員會撰寫 STARD for Abstracts 的清單、聲明和相關材料,并在執行委員會之間通過 Email 形成共識,最終確定報告條目;④ 出版和發表報告規范,并鼓勵對報告規范進行翻譯以便更好地傳播和使用。
3 STARD for Abstracts 條目解讀

3.1 條目 1
可以判斷為診斷準確性試驗,至少應該包括敏感度、特異度、預測值或受試者工作曲線下面積等準確性指標的其中之一,包括待評價診斷試驗診斷目標疾病的診斷準確性/敏感度與特異度/預測值等[(diagnostic accuracy/sensitivity and specificity/predictive value...)of(index test)for diagnosing(target condition)]。
3.2 條目 2
明確闡明診斷準確性研究的目的,如評價待評價診斷試驗診斷疑似患者的診斷準確性/敏感度與特異度/預測值[to evaluate the(diagnostic accuracy/sensitivity and specificity/predictive value...)of(index test)in patients with suspected(target condition)]。
3.3 條目 3
準確說明數據的收集方式非常重要,因為前瞻性研究設計研究的偏倚可能比回顧性研究更少。可以采用如下描述:在這篇前瞻性研究/回顧性研究[In this(prospective/retrospective)study…]、我們實施前瞻性研究/回顧性研究[We conducted a(prospective/retrospective)study…]和前瞻性/回顧性收集數據[Data were collected(prospectively/retrospectively)…]等。
3.4 條目 4
研究對象納入標準包括研究對象的來源與范圍,但必須清楚:① 研究者想通過待評價診斷試驗解決什么臨床問題,擬回答臨床問題的定義決定了研究對象的選擇范圍;② 患者的樣本是否有代表性。但要注意研究場所,一般來說,在三級醫院就診的患者嚴重疾病的比例高于在社區醫院就診者。如果基于三級醫院的患者開展診斷試驗,則可能高估診斷試驗的靈敏度,但低估其特異度,因為這些患者的疾病更重、合并癥較多。相反,如果是在初級衛生保健單位開展診斷試驗,則相同的診斷試驗可能有較低的靈敏度和較高的特異度。因此,在研究經費等可利用資源允許時,可以考慮從多家、不同級別的醫療機構招募研究對象。可以采用如下描述:納入 X~Y 歲成人/兒童/男性/女性來自 XX 國家的單/多中心的初級/二級/三級醫療機構基于當前癥狀和體征判斷為疑似患者,且接受待評價診斷試驗和金標準[eligible for inclusion were(adults/children/men/women)(age X to Y years)with suspected(target condition)…based on(presenting signs and symptoms)…who underwent(index test)and(reference standard)[mono/multi] centre study in(primary/secondary/tertiary)care in(country)…]。
3.5 條目 5
理想的研究對象包括真正未患病人群,又包括亞臨床狀態的人群和疾病早期階段的人群以及那些臨床需要鑒別診斷的患者。樣本越有代表性,對診斷試驗的準確性評估就越趨于真實。當然最科學的方法是從被測人群中隨機抽樣,這種做法在現實中難以實現,比較可行的方法是選取某一段時期,連續納入那些因疑似某疾病而在研究者醫院中就診的患者。可以采用如下描述:連續納入/隨機選擇/方便抽樣招募研究對象[a(consecutive series/random sample/convenience sample)of patients with ...]。
3.6 條目 6
詳細描述待評價診斷試驗和參考標準,可以采用如下描述:所有研究對象均接受待評價診斷試驗(描述關鍵步驟/環節)[all patients underwent(index test with key elements of description)...],將 XX 試驗(描述關鍵步驟/環節)作為參考標準[(reference standard with key elements of description)was used as the reference standard…]。
3.7 條目 7
詳細描述納入分析的研究對象中患和不患目標疾病的人數,有助于分析有無缺失數據。可以采用如下描述:X 名疑似患者最終納入分析,Y 名疑似患者最終確定患目標疾病,排除 Z[of(X)patients included in the analysis,the diagnosis of(target condition)was confirmed in(Y)and excluded in(Z)…]。
3.8 條目 8
盡可能描述待評價診斷試驗準確性指標的點估計值及 95% 可信區間,這樣有助于對精確性進行評估,可以采用如下描述:待評價診斷試驗的敏感度與特異度/陽性預測值與陰性預測值/陽性似然比與陰性似然比的分別值分別為 A[95%CI(B,C)]和 D[95%CI(E,F)][The(sensitivity and specificity/positive and negative predictive values/positive and negative likelihood ratios)of(index test)were A(95%CI B to C)and [D(95%CI E to F),respectively]。
3.9 條目 9
對研究結果進行概括和總結,有助于臨床醫師在臨床使用待評價診斷試驗。可以采用如下描述:待評價診斷試驗顯示高/低/不足準確性/敏感度/特異度發現/診斷目標疾病[(Index test)showed(high/low/insufficient)(accuracy/sensitivity/specificity)for detecting/diagnosing(target condition)]。
3.10 條目 10
對待評價診斷試驗的臨床實踐意義描述,對于臨床醫生選擇待評價診斷試驗使用的研究對象和場所。可以采用如下描述:待評價診斷試驗應該/不應該/可以/不可以用于初級/二級/三級醫療機構診斷/篩查/分期/監測/監控患者/成人/兒童疑似目標疾病[(Index test)(should/should not/could/could not…)be used for(diagnosis/screening/staging/monitoring/surveillance…)in(patients/adults/children)suspected of(target condition)seen in(primary/secondary/tertiary)care]。
3.11 條目 11
對診斷準確性研究進行注冊可以保證研究的前瞻性,減少選擇性報告偏倚發生的可能性。在撰寫和報告診斷準確性研究時,研究人員應該明確說明是否有研究方案存在,并提供現有的注冊信息,如:注冊機構名稱:注冊號碼[(Name of registry):(Registration number)]。
4 小結
與診斷準確性研究的全文相比,診斷準確性研究的摘要提供的信息有限,但是如果能夠依據 STARD for Abstracts 條目對其進行報告,不但有助于提高期刊摘要質量,同時有助于期刊和會議論文的二次利用(如撰寫系統評價)。為此,本文將 STARD for Abstracts 介紹給國內學者,旨在促進國內診斷準確性研究的研究人員規范化地撰寫和報告診斷準確性研究的摘要。同時建議國內刊載診斷準確性研究的期刊能夠盡快將 STARD for Abstracts 引入稿約,要求和督促學者嚴格依據 STARD for Abstracts 執行、撰寫和報告診斷準確性研究的摘要,這將對改善診斷準確性研究摘要的報告質量起到無可替代的作用。