德爾菲法作為一種建立群體共識的方法學工具,已被廣泛應用于醫學研究領域以解決復雜且無法直接定量分析的問題。基于對德爾菲法的實施質量和報告透明度需求,姑息治療領域學者制訂了德爾菲研究實施與報告標準(standards for conducting and reporting Delphi studies,CREDES)。本文對CREDES進行解讀,以期為德爾菲研究方法學設計質量和報告透明度評價提供參考。
引用本文: 景城陽, 劉瑞雪, 褚紅玲, 孫偉偉, 廖星. 醫學研究領域德爾菲法實施和報告標準(CREDES)解讀. 中國循證醫學雜志, 2023, 23(2): 233-239. doi: 10.7507/1672-2531.202210047 復制
德爾菲法是一種被廣泛應用于建立群體共識的方法學工具[1],最初在20世紀50年代由美國蘭德公司所開發并運用于預測科技對戰爭的影響,隨后又被陸續應用于教育、市場營銷、信息工程、醫療保健等領域[2]。當現有知識不全或缺乏證據來源時,德爾菲法可通過提供群體意見并帶有個人反饋的多輪問卷調查達成共識,以此在一定程度上彌補特定領域內的知識空白[1,3]。相較于名義群體法、共識研討會等傳統共識建立方法,德爾菲法具有無需面對面交流、不受地理位置限制的優點[4]。除此之外,其還具備以下方法學特征:① 過程匿名以避免從眾效應;② 至少經歷2輪函詢;③ 下一輪的函詢內容基于上一輪的反饋總結(包括統計分析)而進行設計;④ 共識主題既可以是開放式的探索,也可以是標準化的驗證[4]。
在長期的應用實踐中,德爾菲法不斷地得到發展、完善及不同程度的改良,已日益成為解決醫學研究領域中復雜且無法直接定量分析問題的重要手段[5]。涵蓋的研究領域包括指南制訂[6]、研究指標構建[7]、衛生研究優先領域遴選[8]、方法學評價[9]等。然而,不同的德爾菲研究在設計和實施的嚴謹性上存在諸多問題,例如缺乏明確的共識標準、報告標準不清晰、德爾菲過程的核心要素缺乏明確性和一致性等[5,10]。這使得德爾菲法被批評為一種不可靠的研究方法,因其在數據收集、分析和結果解釋時容易受到偏倚和隨意性的影響[11]。基于以上背景,Jünger等[12]系統分析了德爾菲法在姑息治療領域最佳臨床實踐指南制訂方面的應用,并通過方法學評價進一步提出了德爾菲研究實施與報告標準(standard for conducting and reporting Delphi studies,CREDES)。由于目前醫學領域中尚無公認的德爾菲研究報告標準,CREDES標準亦被推薦應用于姑息治療研究領域以外的德爾菲研究[12]。
1 CREDES標準介紹
1.1 CREDES標準的研究背景
隨著全球范圍內對姑息治療的關注與研究日益深入,該領域的發展水平及臨床應用的專業化程度逐步提高,對于姑息治療服務供給的質量和數量需求亦不斷擴大。因此,相關衛生保健專業人員需要從姑息治療臨床實踐指南中獲取最新研究證據,以指導臨床決策[13]。臨床指南推薦意見通常將來自系統評價、隨機對照試驗或高質量觀察性研究的證據視作較高等級的證據,而專家共識則被歸入最低等級的一類證據之中[14-15]。然而在姑息治療領域中,出于倫理、經濟或現實因素的考慮,開展臨床試驗或大規模的觀察性研究并不現實,這也是此類證據相當稀少的原因[16-17]。因此,姑息治療領域的許多臨床指南以專家意見和經驗為基礎,并往往采用德爾菲法來達成共識[3]。為評價此類共識或指南的可靠性,由Jünger等[12]組成的國際研究團隊系統檢索和分析了德爾菲法在制訂姑息治療領域最佳實踐指南方面的應用。在進一步以混合方法評價了所有與德爾菲研究有關的方法學要素后,研究團隊從“選擇德爾菲法的依據”、“具體實施流程”及“報告的質量和透明度”三個方面提出了CREDES標準。
1.2 CREDES標準的具體內容
共納入了30項已公開發表的德爾菲研究,評價結果顯示,采用德爾菲法開展相關指南制訂的各項研究在設計、流程及結局指標報告等方面存在巨大差異。基于研究發現并結合既往文獻,研究團隊最終提出CREDES標準包含4個部分,共計16項條目及對應說明。具體內容見表1。

1.3 CREDES標準解讀及應用實例
1.3.1 德爾菲法的選擇依據
德爾菲法的本質及精髓在于充分利用專家的知識、專長來盡可能獲取合理、有效的解決方案。采用德爾菲法來達成共識的過程中尤其強調專家判斷的價值,其中包含無法通過臨床試驗直接獲得的大量隱性知識。因此,當選擇德爾菲法作為系統整理專家意見和建立共識的方法時,需要明確方法的構建本質:① 共識的建立依賴于專家個人經驗,通過咨詢、調查、協商而得的最終結果是基于大量個人經驗的集合;② 確保專家的個人經驗同現有證據一般可靠[18]。只有確定滿足以上兩項依據時,德爾菲法才是回答一個特定研究問題的合適選擇。
1.3.2 規劃與設計
德爾菲法的靈活性使得其能夠滿足不同研究的各項要求,但即使是進行不同程度的改良也應系統而嚴謹,并盡可能地以合理的理由和參考依據來避免主觀隨意性[19]。在正式開展研究前,需要仔細規劃德爾菲法實施過程及可能需要修改的步驟或流程,同時對整個協商過程中需要使用的所有相關材料進行審查和試點運行以確保其可用性。除此之外,還需預先定義符合研究目的并適用于研究問題的共識標準。共識標準應為如何在下一輪調查中處理(上一輪)某些項目或主題提供明確透明的行動指導,如,從列表中刪除這些項目或主題,或對其進行改進以獲取更為一致的共識[11]。
然而,并非所有的德爾菲研究都能達成最終共識,而且建立完美的共識也不現實;因此在共識標準中,還需要包括當多輪函詢后仍未達成共識時需要遵循的流程。即使是探索性質的研究無法預先定義共識標準,研究團隊也應在實際研究過程中逐步摸索并確定達成共識或結束此德爾菲流程的具體標準。
1.3.3 研究實施
需要注意材料信息(及其可能產生的偏倚),例如現有證據綜合,對專家小組成員判斷的影響。由于德爾菲法的具體實施過程包含了多輪函詢,因此在研究正式開展前進行小范圍內的材料信息與調查工具試行是必不可少的。除了檢驗初始輪提供的材料對試點人員判斷的影響,提供給下一輪次的反饋意見綜合亦是試點過程中重要的參考材料,不僅可以作為先驗數據以優化實施輪次,還可以采取針對性改進措施以最大程度減少所提供的信息對專家個體判斷的影響。
CREDES標準中建議委托一名獨立的研究人員負責德爾菲法流程中的總體協調工作[12],以避免利益沖突等因素直接或間接影響專家的判斷,同時確保不同個體在保持各自不同立場的情況下促進達成共識。然而值得注意的是,最終共識的達成并不意味著找到了“正確”的答案或判斷;而未形成共識的結局則需要進一步的批判性反思,因固有分歧的價值在于提供了多樣性見解并且突出了在復雜問題上的不同觀點。因此,由外部委員會或權威機構對最終共識進行審查有助于進一步明確其出版和傳播價值。
1.3.4 報告
德爾菲研究中的所有方法學決策都應當透明地報告以完整呈現各個實施步驟、共識的建立情況、最終取得的研究成果[11,19]。具體報告內容見表2條目8~16。對研究結果的報告除了以臨床指南、白皮書等官方文件形式來展示、傳播外,還應當考慮發表額外的方法學論文,例如研究方案,來對研究過程的細節進行補充報告。此外,對德爾菲研究的報告必須明確相應的命名與術語,例如“輪次”、“改良德爾菲法”等專有名詞的準確使用,這將為明確德爾菲研究的方法學特征奠定基礎。以下以一項旨在為荷蘭急診設立最低標準的德爾菲研究為例[20],展示如何運用CREDES標準對研究細節進行具體報告。

條目8:快速變化的急診醫療環境、人口老齡化以及醫療人員的短缺對急診醫療質量提出了挑戰。在現有可用信息有限的情況下…需要設計和實施嚴謹的德爾菲研究為決策制定者提供更為全面信息。
條目9:對專家小組成員的遴選標準如下:① 成員組成為15~25名來自荷蘭11個地區的急診醫師;② 成員所屬單位同時包含教學醫院和基層醫院,且兩者比例適當;③ 成員具有豐富的急診醫療實踐經驗。通過一位荷蘭急診協會的前任主席向20家醫院的急診醫師發起招募…要求必須獲得參與成員的書面知情同意…專家小組由20名急診醫師組成,具體的醫院背景和急診履歷信息見…在每一輪次中,我們最多發送2封附有調查鏈接的電子郵箱,進行4次人工提醒和2次電話提醒…最終所有成員在各輪次的應答率均為100%…整個研究過程中沒有以金錢或禮物作為物質獎勵手段以鼓勵成員應答。
條目10(部分):以半結構化問卷調查的方式邀請專家組成員各自填寫急診需要具備的設施和診療項目…基于填寫信息和我們所搜集的醫學專業列表,生成相應條目…不設置固定輪次,而以是否滿足達成共識的條件來決定相關條目的納入與否…在每一輪的起始,我們將向所有專家組成員提前闡明該輪次的目的及相關決策準則…并提供當前已達成共識的內容及所有備注信息…通過在線調查工具SurveyMonkey匯總并統計分析每一輪的結果…預先在不同的郵件服務器和操作系統上對調查工具進行了測試…
條目11:各輪次的實施流程及具體情況見…
條目12:當超過70%的專家組成員贊成當前條目時,可認為達成初步共識。在此基礎上,成員仍可以就個別或部分條目提出異議或提出新的條目(持有不同意見者人數需≥2人),并給出具體依據。隨后全體成員需要對有異議條目或新條目進行新一輪(或多輪)的德爾菲輪次以達成最終共識(仍以70%作為達成共識基準)…非共識條目的定義標準為四輪過后仍未達成初步共識、且無成員提出異議。
條目13(部分):從最初的55項條目開始,經歷4個德爾菲輪次后,最終對63項條目達成了最終共識(具體情況見…)。從第二輪開始,我們還進一步將條目歸類至3大領域(設施、診療項目、醫療人員可用性)及對應的29個醫學專業,4輪過后最終保留了27個醫學專業…第一輪中,每項條目的平均一致率為85%(大小從55%至100%不等);達成初步共識條目的平均同意率為89%,未達成共識條目的平均同意率為63%,在后續輪次中才達成初步共識的條目平均同意率反而更高,為98%…第二輪中,設施領域的條目平均一致率為79%(大小從50%至100%不等),診療項目領域的條目平均一致率為77%(大小從50%至100%不等),達成初步共識條目的平均同意率為87%,未達成共識條目的平均同意率為59%…
條目14:一大不足之處在于更多的輪次花費了大量時間去達成最終共識…另一個缺陷在于賦予成員提出個人意見的權利(在達成初步共識后仍可提出反對意見)導致研究過程中難以保持焦點穩定。
條目15(部分):對于同意被納入最低標準的條目而言,其中的97%在第一輪中就達成了初步共識,而未被納入標準的條目僅為18%…對于必要性共識的達成往往只需要1輪,而對于非必要性共識的達成通常需要2.45輪…表明后續輪次的主要作用在于篩選并排除非必要條目…鑒于所有輪次的應答率為100%,因此額外輪次并不會影響結論的穩健性。
條目16:依據CREDES,德爾菲研究的結果應當經過外部審查和驗證…由于急診醫學屬于多學科交叉領域,需要在多個利益相關方間尋求支持,因此本項共識研究中僅通過急診醫師產生的共識并不能直接應用于實踐,而僅作為進一步討論急診最低標準的起點和基礎。
2 CREDES標準應用現狀
2.1 資料與方法
計算機檢索PubMed、Web of Science、WanFang Data、CNKI數據庫,搜集采用CREDES標準開展德爾菲研究的相關文獻,檢索時限均從建庫至2022年9月27日。英文檢索詞包括:Delphi、standard for conducting and reporting Delphi studies、CREDES;中文檢索詞包括:德爾菲、實施、報告、標準。納入以中、英文發表的在醫學研究領域應用CREDES標準開展的德爾菲實證研究,發表時間為2017年2月17日至2022年9月27日。
2.2 結果
最終納入相關文獻17篇[20-36]。當前CREDES標準的應用現狀詳見表2。
3 討論
通過方法學層面的系統研究,CREDES標準從德爾菲法的選擇依據、實施及報告三個方面,首次為醫學研究領域的德爾菲研究應當具備的嚴謹性和透明度確定了最低要求。結合近幾年的應用數量及對應的研究主題來看,CREDES標準的應用趨勢正處于不斷上升階段,且涵蓋了臨床、護理、藥物、公共衛生等多個研究領域。對研究目的進行分析發現,CREDES標準最常用于評價/評估指標體系構建的共識研究(8/17,47.06%),尤其集中于護理及臨床篩查/診斷研究;其次則是項目/條目清單或調查問卷的制訂工作(5/17,29.41%);再次是探討特定的影響因素(2/17,11.76%);其余的應用還包括概念性研究(1/17,5.88%)及探索性研究(1/17,5.88%)。而對實際應用情況的初步檢查表明,大部分共識研究遵循了CREDES標準或改良后的CREDES標準并提供了相應報告附件(14/17,82.35%);僅有個別研究未提供報告附件(3/17,17.65%)。此外,荷蘭的研究團隊基于CREDES標準,設計了專門用于開展德爾菲研究的在線電子調查工具以提高各輪次的應答率,并通過預先制訂的決策準則進一步促進共識過程中的一致性[20]。這顯然是CREDES標準未來優化過程中的良好借鑒措施。以上現狀充分體現了來自不同臨床學科的研究者對于加強德爾菲研究報告嚴謹性及透明度的迫切需求,同時也證明了該標準廣泛的適用性。
達成共識作為臨床實踐指南制訂中的重要一環,既往研究推薦將德爾菲法作為臨床實踐指南制訂過程中的最佳正式共識方法[6,37-38]。2020年發表的一項系統評價[39]結果表明,2013至2019年間通過德爾菲法制訂的指南在所有指南中的占比高達20%~60%。然而,本研究并未發現CREDES標準在指南制訂方面的具體應用。這表明CREDES標準尚未引起臨床實踐指南制訂人員的重視。雖然現有指南制訂方法在不斷完善之中,但針對制訂過程中達成共識的方法學卻鮮有重要的指導細則發布。因此,建議通過實施德爾菲法來達成共識的臨床實踐指南也應當盡可能采用CREDES標準以進一步提高最終共識意見的嚴謹性和透明度。
盡管CREDES標準的制訂得到了多專業國際研究團隊的支持,但仍然存在一定的局限性。首先,當研究主題擴大到多學科交叉領域時,需要明確考慮到異質性/同質性對專家小組樣本量的影響。許多醫學領域內的德爾菲研究通常納入10~15名或8~12名專家來確保小組的同質性[40-42],亦或是通過隨機抽樣的方式招募更多數量的專家來確保異質性[43]。但即使是CREDES標準也未對最佳研究效果所需的專家小組異質性/同質性大小及樣本量有所定論。而應用CREDES標準的17項共識研究中也鮮有對此進行詳細說明和討論,通常對組內異質性/同質性籠統地一筆帶過,或僅選擇性報告專家小組的整體醫學背景及具體人數。其次,CREDES標準并沒有額外強調實施輪次的確定依據及每一輪次的持續時間。通常輪次數量/持續時間的增加將直接導致應答率的降低,但越少的輪次則意味著將犧牲掉一部分結果的穩定性。僅僅要求報告實施的輪次無法全面展現德爾菲研究對于應答率及穩定性的取舍,而如何取得兩者間的平衡卻是應用德爾菲法的精髓所在。
作為第一個在醫學研究領域中提出的德爾菲法實施和報告標準,CREDES標準無疑對共識研究的科學性和可靠性具有巨大的促進作用。本文就CREDES標準的具體內容及應用現狀進行介紹和解讀,以期促進該標準的推廣應用。未來相關研究的應用反饋將進一步推動CREDES標準的更新、完善,使其更好地服務于醫學研究領域。
利益沖突聲明 所有作者均聲明不存在利益沖突。
德爾菲法是一種被廣泛應用于建立群體共識的方法學工具[1],最初在20世紀50年代由美國蘭德公司所開發并運用于預測科技對戰爭的影響,隨后又被陸續應用于教育、市場營銷、信息工程、醫療保健等領域[2]。當現有知識不全或缺乏證據來源時,德爾菲法可通過提供群體意見并帶有個人反饋的多輪問卷調查達成共識,以此在一定程度上彌補特定領域內的知識空白[1,3]。相較于名義群體法、共識研討會等傳統共識建立方法,德爾菲法具有無需面對面交流、不受地理位置限制的優點[4]。除此之外,其還具備以下方法學特征:① 過程匿名以避免從眾效應;② 至少經歷2輪函詢;③ 下一輪的函詢內容基于上一輪的反饋總結(包括統計分析)而進行設計;④ 共識主題既可以是開放式的探索,也可以是標準化的驗證[4]。
在長期的應用實踐中,德爾菲法不斷地得到發展、完善及不同程度的改良,已日益成為解決醫學研究領域中復雜且無法直接定量分析問題的重要手段[5]。涵蓋的研究領域包括指南制訂[6]、研究指標構建[7]、衛生研究優先領域遴選[8]、方法學評價[9]等。然而,不同的德爾菲研究在設計和實施的嚴謹性上存在諸多問題,例如缺乏明確的共識標準、報告標準不清晰、德爾菲過程的核心要素缺乏明確性和一致性等[5,10]。這使得德爾菲法被批評為一種不可靠的研究方法,因其在數據收集、分析和結果解釋時容易受到偏倚和隨意性的影響[11]。基于以上背景,Jünger等[12]系統分析了德爾菲法在姑息治療領域最佳臨床實踐指南制訂方面的應用,并通過方法學評價進一步提出了德爾菲研究實施與報告標準(standard for conducting and reporting Delphi studies,CREDES)。由于目前醫學領域中尚無公認的德爾菲研究報告標準,CREDES標準亦被推薦應用于姑息治療研究領域以外的德爾菲研究[12]。
1 CREDES標準介紹
1.1 CREDES標準的研究背景
隨著全球范圍內對姑息治療的關注與研究日益深入,該領域的發展水平及臨床應用的專業化程度逐步提高,對于姑息治療服務供給的質量和數量需求亦不斷擴大。因此,相關衛生保健專業人員需要從姑息治療臨床實踐指南中獲取最新研究證據,以指導臨床決策[13]。臨床指南推薦意見通常將來自系統評價、隨機對照試驗或高質量觀察性研究的證據視作較高等級的證據,而專家共識則被歸入最低等級的一類證據之中[14-15]。然而在姑息治療領域中,出于倫理、經濟或現實因素的考慮,開展臨床試驗或大規模的觀察性研究并不現實,這也是此類證據相當稀少的原因[16-17]。因此,姑息治療領域的許多臨床指南以專家意見和經驗為基礎,并往往采用德爾菲法來達成共識[3]。為評價此類共識或指南的可靠性,由Jünger等[12]組成的國際研究團隊系統檢索和分析了德爾菲法在制訂姑息治療領域最佳實踐指南方面的應用。在進一步以混合方法評價了所有與德爾菲研究有關的方法學要素后,研究團隊從“選擇德爾菲法的依據”、“具體實施流程”及“報告的質量和透明度”三個方面提出了CREDES標準。
1.2 CREDES標準的具體內容
共納入了30項已公開發表的德爾菲研究,評價結果顯示,采用德爾菲法開展相關指南制訂的各項研究在設計、流程及結局指標報告等方面存在巨大差異。基于研究發現并結合既往文獻,研究團隊最終提出CREDES標準包含4個部分,共計16項條目及對應說明。具體內容見表1。

1.3 CREDES標準解讀及應用實例
1.3.1 德爾菲法的選擇依據
德爾菲法的本質及精髓在于充分利用專家的知識、專長來盡可能獲取合理、有效的解決方案。采用德爾菲法來達成共識的過程中尤其強調專家判斷的價值,其中包含無法通過臨床試驗直接獲得的大量隱性知識。因此,當選擇德爾菲法作為系統整理專家意見和建立共識的方法時,需要明確方法的構建本質:① 共識的建立依賴于專家個人經驗,通過咨詢、調查、協商而得的最終結果是基于大量個人經驗的集合;② 確保專家的個人經驗同現有證據一般可靠[18]。只有確定滿足以上兩項依據時,德爾菲法才是回答一個特定研究問題的合適選擇。
1.3.2 規劃與設計
德爾菲法的靈活性使得其能夠滿足不同研究的各項要求,但即使是進行不同程度的改良也應系統而嚴謹,并盡可能地以合理的理由和參考依據來避免主觀隨意性[19]。在正式開展研究前,需要仔細規劃德爾菲法實施過程及可能需要修改的步驟或流程,同時對整個協商過程中需要使用的所有相關材料進行審查和試點運行以確保其可用性。除此之外,還需預先定義符合研究目的并適用于研究問題的共識標準。共識標準應為如何在下一輪調查中處理(上一輪)某些項目或主題提供明確透明的行動指導,如,從列表中刪除這些項目或主題,或對其進行改進以獲取更為一致的共識[11]。
然而,并非所有的德爾菲研究都能達成最終共識,而且建立完美的共識也不現實;因此在共識標準中,還需要包括當多輪函詢后仍未達成共識時需要遵循的流程。即使是探索性質的研究無法預先定義共識標準,研究團隊也應在實際研究過程中逐步摸索并確定達成共識或結束此德爾菲流程的具體標準。
1.3.3 研究實施
需要注意材料信息(及其可能產生的偏倚),例如現有證據綜合,對專家小組成員判斷的影響。由于德爾菲法的具體實施過程包含了多輪函詢,因此在研究正式開展前進行小范圍內的材料信息與調查工具試行是必不可少的。除了檢驗初始輪提供的材料對試點人員判斷的影響,提供給下一輪次的反饋意見綜合亦是試點過程中重要的參考材料,不僅可以作為先驗數據以優化實施輪次,還可以采取針對性改進措施以最大程度減少所提供的信息對專家個體判斷的影響。
CREDES標準中建議委托一名獨立的研究人員負責德爾菲法流程中的總體協調工作[12],以避免利益沖突等因素直接或間接影響專家的判斷,同時確保不同個體在保持各自不同立場的情況下促進達成共識。然而值得注意的是,最終共識的達成并不意味著找到了“正確”的答案或判斷;而未形成共識的結局則需要進一步的批判性反思,因固有分歧的價值在于提供了多樣性見解并且突出了在復雜問題上的不同觀點。因此,由外部委員會或權威機構對最終共識進行審查有助于進一步明確其出版和傳播價值。
1.3.4 報告
德爾菲研究中的所有方法學決策都應當透明地報告以完整呈現各個實施步驟、共識的建立情況、最終取得的研究成果[11,19]。具體報告內容見表2條目8~16。對研究結果的報告除了以臨床指南、白皮書等官方文件形式來展示、傳播外,還應當考慮發表額外的方法學論文,例如研究方案,來對研究過程的細節進行補充報告。此外,對德爾菲研究的報告必須明確相應的命名與術語,例如“輪次”、“改良德爾菲法”等專有名詞的準確使用,這將為明確德爾菲研究的方法學特征奠定基礎。以下以一項旨在為荷蘭急診設立最低標準的德爾菲研究為例[20],展示如何運用CREDES標準對研究細節進行具體報告。

條目8:快速變化的急診醫療環境、人口老齡化以及醫療人員的短缺對急診醫療質量提出了挑戰。在現有可用信息有限的情況下…需要設計和實施嚴謹的德爾菲研究為決策制定者提供更為全面信息。
條目9:對專家小組成員的遴選標準如下:① 成員組成為15~25名來自荷蘭11個地區的急診醫師;② 成員所屬單位同時包含教學醫院和基層醫院,且兩者比例適當;③ 成員具有豐富的急診醫療實踐經驗。通過一位荷蘭急診協會的前任主席向20家醫院的急診醫師發起招募…要求必須獲得參與成員的書面知情同意…專家小組由20名急診醫師組成,具體的醫院背景和急診履歷信息見…在每一輪次中,我們最多發送2封附有調查鏈接的電子郵箱,進行4次人工提醒和2次電話提醒…最終所有成員在各輪次的應答率均為100%…整個研究過程中沒有以金錢或禮物作為物質獎勵手段以鼓勵成員應答。
條目10(部分):以半結構化問卷調查的方式邀請專家組成員各自填寫急診需要具備的設施和診療項目…基于填寫信息和我們所搜集的醫學專業列表,生成相應條目…不設置固定輪次,而以是否滿足達成共識的條件來決定相關條目的納入與否…在每一輪的起始,我們將向所有專家組成員提前闡明該輪次的目的及相關決策準則…并提供當前已達成共識的內容及所有備注信息…通過在線調查工具SurveyMonkey匯總并統計分析每一輪的結果…預先在不同的郵件服務器和操作系統上對調查工具進行了測試…
條目11:各輪次的實施流程及具體情況見…
條目12:當超過70%的專家組成員贊成當前條目時,可認為達成初步共識。在此基礎上,成員仍可以就個別或部分條目提出異議或提出新的條目(持有不同意見者人數需≥2人),并給出具體依據。隨后全體成員需要對有異議條目或新條目進行新一輪(或多輪)的德爾菲輪次以達成最終共識(仍以70%作為達成共識基準)…非共識條目的定義標準為四輪過后仍未達成初步共識、且無成員提出異議。
條目13(部分):從最初的55項條目開始,經歷4個德爾菲輪次后,最終對63項條目達成了最終共識(具體情況見…)。從第二輪開始,我們還進一步將條目歸類至3大領域(設施、診療項目、醫療人員可用性)及對應的29個醫學專業,4輪過后最終保留了27個醫學專業…第一輪中,每項條目的平均一致率為85%(大小從55%至100%不等);達成初步共識條目的平均同意率為89%,未達成共識條目的平均同意率為63%,在后續輪次中才達成初步共識的條目平均同意率反而更高,為98%…第二輪中,設施領域的條目平均一致率為79%(大小從50%至100%不等),診療項目領域的條目平均一致率為77%(大小從50%至100%不等),達成初步共識條目的平均同意率為87%,未達成共識條目的平均同意率為59%…
條目14:一大不足之處在于更多的輪次花費了大量時間去達成最終共識…另一個缺陷在于賦予成員提出個人意見的權利(在達成初步共識后仍可提出反對意見)導致研究過程中難以保持焦點穩定。
條目15(部分):對于同意被納入最低標準的條目而言,其中的97%在第一輪中就達成了初步共識,而未被納入標準的條目僅為18%…對于必要性共識的達成往往只需要1輪,而對于非必要性共識的達成通常需要2.45輪…表明后續輪次的主要作用在于篩選并排除非必要條目…鑒于所有輪次的應答率為100%,因此額外輪次并不會影響結論的穩健性。
條目16:依據CREDES,德爾菲研究的結果應當經過外部審查和驗證…由于急診醫學屬于多學科交叉領域,需要在多個利益相關方間尋求支持,因此本項共識研究中僅通過急診醫師產生的共識并不能直接應用于實踐,而僅作為進一步討論急診最低標準的起點和基礎。
2 CREDES標準應用現狀
2.1 資料與方法
計算機檢索PubMed、Web of Science、WanFang Data、CNKI數據庫,搜集采用CREDES標準開展德爾菲研究的相關文獻,檢索時限均從建庫至2022年9月27日。英文檢索詞包括:Delphi、standard for conducting and reporting Delphi studies、CREDES;中文檢索詞包括:德爾菲、實施、報告、標準。納入以中、英文發表的在醫學研究領域應用CREDES標準開展的德爾菲實證研究,發表時間為2017年2月17日至2022年9月27日。
2.2 結果
最終納入相關文獻17篇[20-36]。當前CREDES標準的應用現狀詳見表2。
3 討論
通過方法學層面的系統研究,CREDES標準從德爾菲法的選擇依據、實施及報告三個方面,首次為醫學研究領域的德爾菲研究應當具備的嚴謹性和透明度確定了最低要求。結合近幾年的應用數量及對應的研究主題來看,CREDES標準的應用趨勢正處于不斷上升階段,且涵蓋了臨床、護理、藥物、公共衛生等多個研究領域。對研究目的進行分析發現,CREDES標準最常用于評價/評估指標體系構建的共識研究(8/17,47.06%),尤其集中于護理及臨床篩查/診斷研究;其次則是項目/條目清單或調查問卷的制訂工作(5/17,29.41%);再次是探討特定的影響因素(2/17,11.76%);其余的應用還包括概念性研究(1/17,5.88%)及探索性研究(1/17,5.88%)。而對實際應用情況的初步檢查表明,大部分共識研究遵循了CREDES標準或改良后的CREDES標準并提供了相應報告附件(14/17,82.35%);僅有個別研究未提供報告附件(3/17,17.65%)。此外,荷蘭的研究團隊基于CREDES標準,設計了專門用于開展德爾菲研究的在線電子調查工具以提高各輪次的應答率,并通過預先制訂的決策準則進一步促進共識過程中的一致性[20]。這顯然是CREDES標準未來優化過程中的良好借鑒措施。以上現狀充分體現了來自不同臨床學科的研究者對于加強德爾菲研究報告嚴謹性及透明度的迫切需求,同時也證明了該標準廣泛的適用性。
達成共識作為臨床實踐指南制訂中的重要一環,既往研究推薦將德爾菲法作為臨床實踐指南制訂過程中的最佳正式共識方法[6,37-38]。2020年發表的一項系統評價[39]結果表明,2013至2019年間通過德爾菲法制訂的指南在所有指南中的占比高達20%~60%。然而,本研究并未發現CREDES標準在指南制訂方面的具體應用。這表明CREDES標準尚未引起臨床實踐指南制訂人員的重視。雖然現有指南制訂方法在不斷完善之中,但針對制訂過程中達成共識的方法學卻鮮有重要的指導細則發布。因此,建議通過實施德爾菲法來達成共識的臨床實踐指南也應當盡可能采用CREDES標準以進一步提高最終共識意見的嚴謹性和透明度。
盡管CREDES標準的制訂得到了多專業國際研究團隊的支持,但仍然存在一定的局限性。首先,當研究主題擴大到多學科交叉領域時,需要明確考慮到異質性/同質性對專家小組樣本量的影響。許多醫學領域內的德爾菲研究通常納入10~15名或8~12名專家來確保小組的同質性[40-42],亦或是通過隨機抽樣的方式招募更多數量的專家來確保異質性[43]。但即使是CREDES標準也未對最佳研究效果所需的專家小組異質性/同質性大小及樣本量有所定論。而應用CREDES標準的17項共識研究中也鮮有對此進行詳細說明和討論,通常對組內異質性/同質性籠統地一筆帶過,或僅選擇性報告專家小組的整體醫學背景及具體人數。其次,CREDES標準并沒有額外強調實施輪次的確定依據及每一輪次的持續時間。通常輪次數量/持續時間的增加將直接導致應答率的降低,但越少的輪次則意味著將犧牲掉一部分結果的穩定性。僅僅要求報告實施的輪次無法全面展現德爾菲研究對于應答率及穩定性的取舍,而如何取得兩者間的平衡卻是應用德爾菲法的精髓所在。
作為第一個在醫學研究領域中提出的德爾菲法實施和報告標準,CREDES標準無疑對共識研究的科學性和可靠性具有巨大的促進作用。本文就CREDES標準的具體內容及應用現狀進行介紹和解讀,以期促進該標準的推廣應用。未來相關研究的應用反饋將進一步推動CREDES標準的更新、完善,使其更好地服務于醫學研究領域。
利益沖突聲明 所有作者均聲明不存在利益沖突。