臨床研究中結局指標的選擇至關重要,恰當的結局指標在一定程度上可提高研究價值和意義,減少經費浪費。本文介紹了如何通過引入混合方法研究理念,構建核心結局指標集及核心結局指標測量工具集的方法,以規范臨床研究中結局指標及結局指標測量工具的選擇。
引用本文: 邱瑞瑾, 孫楊, 胡嘉元, 李敏, 何天麥, 黃涯, 韓松潔, 陳靜, 商洪才. 臨床研究中選擇結局指標測量工具的方法. 中國循證醫學雜志, 2018, 18(2): 238-243. doi: 10.7507/1672-2531.201709017 復制
結局指標可分為主觀指標和客觀指標。主觀指標與患者的主觀感受或醫生的主觀判斷有關,如生活質量。客觀指標一般有比較嚴格的誤差范圍和結果報告標準,不易受患者或醫生主觀因素的影響[1, 2],如病死率。鑒于此,測量結局指標的工具種類也多種多樣[3]。在臨床中,常用不同的工具測量特定疾病的結局指標,有的甚至選擇不同的工具測量同一指標,而這些工具的適用人群、性能、質量卻有很大差異[4-7]。因此,選擇有效、可靠、實用的結局指標測量工具是得到有意義、有價值的結果的關鍵[8-10]。
核心結局指標測量工具集是指每個特定疾病領域的干預性試驗中能覆蓋相應的核心結局指標集的最小結局指標測量工具的集合[11]。目前國內研究者更關注于生產證據及制作新的結局指標測量工具,而較少關注如何在臨床研究中選擇合適的結局指標及結局指標測量工具。因此,筆者參考國外研究者的經驗,探索臨床研究中構建核心結局指標測量工具集的方法。
1 引入混合方法研究構建臨床研究核心結局指標集
1.1 混合方法研究
混合方法研究指研究者在單個研究或研究方案中同時使用定性研究(如個人深度訪談、焦點小組訪談、觀察)和定量研究(觀察性研究、實驗性研究)方法來收集、分析數據資料、整合研究結果并做出推斷的一種方法[12]。其早在 20 世紀 20 年代已被應用于心理學研究領域,如著名的霍桑實驗[13],但當時并未明確提出“混合方法研究”。20 世紀 50 年代末,Campbell 和 Fiske 首次在研究中明確提出使用“多元方法研究”[14],此后 30 年,被廣泛應用于社會科學、行為科學、健康科學、心理學等領域[13, 15],作為定性研究范式、定量研究范式的補充[16],逐漸被接受為“第三種研究范式”。但直到 2005 年第一屆國際混合方法研討會的召開,才標志著混合方法研究正式走向國際舞臺[17]。
1.2 構建核心結局指標
2013 年,核心結局指標集的這一概念被引入中國[18]。2017 年 6 月,“有效性試驗核心結局指標測量”(Core Outcome Measures in Effectiveness Trials,COMET)工作組發布了《COMET 手冊 1.0 版》,推薦了核心結局指標集的制作流程,其中特別提到將定性研究、定量研究結合,以便更廣泛地獲得不同利益相關群體的意見[19]。可見,在核心結局指標集的構建中,引入混合方法研究,不僅被許多研究者接受,也將成為一種趨勢。核心結局指標集的構建流程見圖 1。

以系統評價和訪談為主的定性研究是構建核心結局指標集研究的第一步,其全面探索了特定疾病領域臨床研究中存在的結局指標,為下一步德爾菲調查和共識會議提供基礎。在德爾菲調查和共識會議中,請利益相關群體及專家采用 GRADE 工作組推薦的 Likert 評分系統[20]對結局指標重要性進行打分:1~3 分代表該結局指標“不重要”;4~6 分代表“重要”;7~9 分代表“非常重要”;若某個結局指標得 7~9 分的比例超過 70%,則該指標可以納入核心結局指標集。如一個關于護理院中優化處方的有效性試驗的核心結局指標集研究,研究者首先對干預措施中涉及到護理院優化處方的研究進行綜述,以構建結局指標清單,并通過焦點小組和半結構化訪談補充結局指標清單。接著對不同利益相關群體(包括藥師,醫生和患者公眾參與代表)進行了兩輪德爾菲調查,請參與者采用 Likert 評分系統對結局指標的重要性進行打分,若≥70%參與者評分 7~9 分且<15%參與者評分 1~3 分則指對納入核心結局指標集達成共識;若≥70%參與者評分 1~3 分且<15%參與者評分 7~9 分則對排除核心結局指標集達成共識。最終 7 個領域的 13 個指標納入到核心結局指標集[21]。
2 引入混合方法研究構建核心結局指標測量工具集
在完成核心結局指標集的構建后,研究者應為核心結局指標集中的每一個結局指標確定一個合適的測量工具。在選擇合適的結局指標測量工具時,既需評價測量工具的質量,也需充分考慮臨床醫生或研究者對測量工具性能的反饋及選擇測量工具的偏好。
目前國內尚未系統介紹選擇結局指標測量工具(即如何測量)的方法。截止到 2017 年 11 月,我國已有 7 個核心結局指標集研究在 COMET 數據庫注冊,但僅兩個研究提到在完成核心結局指標集后,通過共識會議確定核心指標的測量工具[22,23]。2016 年,COMET 工作組和“基于共識標準選擇健康測量工具”(Consensus-based standards for the selection of health measurement instruments,COSMIN)工作組聯合發布了指南,致力于幫助構建核心結局指標集的研究者在完成核心結局指標集后,為其中的每一個結局指標選擇一個合適的結局指標測量工具[24],即構建“核心結局指標測量工具集”。本文借鑒核心結局指標測量工具集指南,探討在臨床研究中選擇結局指標測量工具的方法。主要遵循 4 個步驟,具體如下:
2.1 明確測量指標及目標人群
明確測量的結局指標/結局指標域的概念及目標人群(如性別、年齡、疾病特征)是構建核心結局指標測量工具集的第一步。如對于卵巢癌、前列腺癌等具有明顯性別特征及特定臨床表現的疾病,在選擇結局指標測量工具時應考慮性別因素;在測量疼痛程度時,應考慮不同疼痛測量量表對成人及兒童的適用性[7];對接受姑息治療的患者,應考慮疾病程度,尤其是選擇的結局指標測量工具是否適合特殊人群,如有嚴重身體、認知和心理損傷的患者[25]。
2.2 全面獲得相關的結局指標測量工具的文獻
全面的文獻檢索是構建核心結局指標測量工具集的第二步。盡可能找到目前所有相關的結局指標測量工具,主要通過三種途徑:① 結局指標測量工具的系統評價。② 若無最新的系統評價,則研究者可以自己進行更新;若系統評價質量低或無相關的系統評價,研究者應進行新的系統評價。③ 其他相關的文獻。
2.3 評價結局指標測量工具的質量
采用 COSMIN 工作組制作的測量工具質量評價清單(即 COSMIN 清單)[26]評價結局指標測量工具的質量、性能及可行性是構建核心結局指標測量工具集的第三步。
COSMIN 清單包含 12 個框架 119 項條目,包括內部一致性(框架 A)、信度(框架 B)、測量誤差(框架 C)、內容效度(框架 D)、結構效度(框架 E)、假說檢驗(框架 F)、跨文化效度(框架 G)、效標效度(框架 H)、反應度(框架 I)和解釋性(框架 J)、條目反映理論(IRT 框架)和研究一般情況等,主要用于患者報告結局(PRO)量表的評價[11]。近期,COSMIN 工作組正在進行一個新的研究,以制作出適合非 PRO 測量工具的清單[19]。
核心結局指標測量工具集指南對結局指標測量工具的性能標準在 9 個方面達成共識,包括:內容效度、結構效度、內部一致性、信度、測量誤差、假設檢驗、跨文化效度、效標效度、反應度。研究者需要根據 COSMIN 清單評價所納入的文獻是否符合一定的標準,從而判斷結局指標測量工具的性能為“陰性”、“陽性”或“不確定”。指南指出,判斷結局測量工具性能的標準可以應用于所有類型的測量工具(如影像學、生物標記物、調查問卷、量表、實驗室檢查等)。
COSMIN 工作組推薦,在進行結局指標測量工具性能評估時,應預先確定測量性能的重要性,并按照不同測量性能重要程度的順序進行評估:① 首先評估內容效度。內容效度是最重要的測量性能,若結局指標測量工具的測量內容不清楚或內容效度性能很差,則評估其他性能沒有太大意義。② 其次評估內部結構(如結構效度、內部一致性、IRT 等)。若內部結構性能質量差,則沒有必要進一步評估其他性能。③ 若內容效度和內部結構的測量性能沒有問題,進一步評估其他性能(如信度、測量誤差、假設檢測、跨文化效度、效標效度、反應度)[27]。對結局指標測量工具的性能進行評估后,應綜合考慮每個測量工具性能的證據質量、研究的數量、研究的方法學質量及測量性能結果的一致性,得到結局指標測量工具總的證據質量(表 1)。

評價結局指標測量工具的性能及質量后,應進一步評估測量工具的可行性。指南推薦在進行可行性分析時,應考慮 17 個方面的內容,包括:患者是否可以理解、是否容易解釋、是否容易管理、結局指標測量工具的長度、完成測量的時間、患者的心智水平、是否容易標準化操作、臨床醫生是否可以理解、結局指標測量工具的類型、結局指標測量工具的費用、需要使用的儀器、管理類型、是否可在不同場合使用、版權、患者的體能水平、監管機構的批準要求、是否容易計算得分。
然而,由于研究者、德爾菲調查的參與者及共識會議的參與者未必了解或使用過每一個相關的測量工具,因此,在評估結局指標測量工具的質量時,可以加入對相關結局指標測量工具使用者的訪談,以更好地解釋結局指標測量工具的質量。
2.4 確定核心結局指標測量工具集
為納入的結局指標推薦最佳的測量工具是構建核心結局指標測量工具集的第四步。構建核心結局指標集和核心結局指標測量工具集的目的是為了減少不同研究中選擇結局指標或結局指標測量工具的多樣性,因此,指南指出每個結局指標僅推薦一個最佳的測量工具;如果當前沒有高質量的測量工具,可以暫時將可行性高、內容效度和內部一致性良好的測量工具納入工具集;此外,不同的利益相關群體(包括患者)還需對此達成共識。核心結局指標測量工具集的構建流程見圖 2。

一個急性腹瀉臨床研究核心結局指標集研究結果顯示,門診患者的核心指標有腹瀉持續時間、脫水程度、是否需要住院治療、48 h后痊愈患者比例、治療相關不良事件;住院患者核心指標有腹瀉持續時間、脫水程度、住院時間、48 h后痊愈患者比例、治療相關不良事件等。若要合理地測量該核心結局指標集的各指標,不僅應找到相關的結局指標測量工具,也應對相關的結局指標進行明確定義(因某些結局指標的測量僅需要明確定義)。該研究完成后,研究者首先通過文獻研究找到結局指標測量工具或需要測量的結局指標定義,然后進行德爾菲調查和共識會議,70% 共識小組成員對該結局指標的定義或結局指標測量工具達成共識的,納入核心結局指標測量工具集[28]。
3 非核心結局指標測量工具的選擇
在臨床研究中,使用核心結局指標集并非意味著不能選擇核心指標以外的結局指標進行測量[29]。研究者若選擇其他指標進行測量,也應遵循循證醫學所倡導的最佳證據理念,參考核心測量工具集的研究方法,通過系統評價獲得待測量的結局指標的測量工具;使用具有良好標準的清單對相關結局指標測量工具的性能(如信度、效度、反應度)進行評估[30, 31];進行定性研究,對不同測量工具的使用者(如臨床醫生或研究者)進行訪談或半結構化訪談,獲得測量工具的使用者對不同工具性能的認識,分析不同測量工具的缺陷及優勢,也可獲得不同測量工具的使用者選擇測量工具的傾向。最后通過共識方法,確定結局指標的定義或測量工具。這種方法也可以推廣到其他研究中,一方面幫助其他研究者避免選擇性能不好的結局指標測量工具,另一方面可以減少不同研究在結局指標測量工具選擇上的異質性,提高研究的價值。
4 小結
我國目前的臨床研究質量普遍較差,同類研究中選擇不同的結局指標或結局指標測量工具的現象很普遍,也有不少研究未提供結局指標的定義及結局指標測量工具,導致許多研究難以指導臨床實踐,或無法進行同類比較[32-34]。若在臨床研究中報告不合適的結局指標,或選擇性報告結局指標,或選擇不合適的結局指標測量工具,可能得到毫無價值的結果,達不到臨床研究的目的,也導致基于這些臨床研究而制作的系統評價或指南的質量偏低,降低研究價值或造成衛生資源浪費[35-37]。
目前,我國已有研究者關注到這些問題,并嘗試建立核心結局指標集,以規范臨床研究中結局指標的選擇,以期減少不同臨床研究中結局指標報告的異質性,減少選擇性偏倚的發生。但對結局指標測量工具的選擇關注不足,因此,核心結局指標集的研究者應在完成核心結局指標集后,為每一個納入核心結局指標集的結局指標選擇一個最佳的測量工具,并將核心結局指標集和核心結局指標測量工具集推廣應用到臨床研究中,以提高臨床研究的水平和價值,減少研究浪費。對于沒有納入核心結局指標集的結局指標,研究者也可以采用類似的方法,為其他指標選擇合適的測量工具。
結局指標可分為主觀指標和客觀指標。主觀指標與患者的主觀感受或醫生的主觀判斷有關,如生活質量。客觀指標一般有比較嚴格的誤差范圍和結果報告標準,不易受患者或醫生主觀因素的影響[1, 2],如病死率。鑒于此,測量結局指標的工具種類也多種多樣[3]。在臨床中,常用不同的工具測量特定疾病的結局指標,有的甚至選擇不同的工具測量同一指標,而這些工具的適用人群、性能、質量卻有很大差異[4-7]。因此,選擇有效、可靠、實用的結局指標測量工具是得到有意義、有價值的結果的關鍵[8-10]。
核心結局指標測量工具集是指每個特定疾病領域的干預性試驗中能覆蓋相應的核心結局指標集的最小結局指標測量工具的集合[11]。目前國內研究者更關注于生產證據及制作新的結局指標測量工具,而較少關注如何在臨床研究中選擇合適的結局指標及結局指標測量工具。因此,筆者參考國外研究者的經驗,探索臨床研究中構建核心結局指標測量工具集的方法。
1 引入混合方法研究構建臨床研究核心結局指標集
1.1 混合方法研究
混合方法研究指研究者在單個研究或研究方案中同時使用定性研究(如個人深度訪談、焦點小組訪談、觀察)和定量研究(觀察性研究、實驗性研究)方法來收集、分析數據資料、整合研究結果并做出推斷的一種方法[12]。其早在 20 世紀 20 年代已被應用于心理學研究領域,如著名的霍桑實驗[13],但當時并未明確提出“混合方法研究”。20 世紀 50 年代末,Campbell 和 Fiske 首次在研究中明確提出使用“多元方法研究”[14],此后 30 年,被廣泛應用于社會科學、行為科學、健康科學、心理學等領域[13, 15],作為定性研究范式、定量研究范式的補充[16],逐漸被接受為“第三種研究范式”。但直到 2005 年第一屆國際混合方法研討會的召開,才標志著混合方法研究正式走向國際舞臺[17]。
1.2 構建核心結局指標
2013 年,核心結局指標集的這一概念被引入中國[18]。2017 年 6 月,“有效性試驗核心結局指標測量”(Core Outcome Measures in Effectiveness Trials,COMET)工作組發布了《COMET 手冊 1.0 版》,推薦了核心結局指標集的制作流程,其中特別提到將定性研究、定量研究結合,以便更廣泛地獲得不同利益相關群體的意見[19]。可見,在核心結局指標集的構建中,引入混合方法研究,不僅被許多研究者接受,也將成為一種趨勢。核心結局指標集的構建流程見圖 1。

以系統評價和訪談為主的定性研究是構建核心結局指標集研究的第一步,其全面探索了特定疾病領域臨床研究中存在的結局指標,為下一步德爾菲調查和共識會議提供基礎。在德爾菲調查和共識會議中,請利益相關群體及專家采用 GRADE 工作組推薦的 Likert 評分系統[20]對結局指標重要性進行打分:1~3 分代表該結局指標“不重要”;4~6 分代表“重要”;7~9 分代表“非常重要”;若某個結局指標得 7~9 分的比例超過 70%,則該指標可以納入核心結局指標集。如一個關于護理院中優化處方的有效性試驗的核心結局指標集研究,研究者首先對干預措施中涉及到護理院優化處方的研究進行綜述,以構建結局指標清單,并通過焦點小組和半結構化訪談補充結局指標清單。接著對不同利益相關群體(包括藥師,醫生和患者公眾參與代表)進行了兩輪德爾菲調查,請參與者采用 Likert 評分系統對結局指標的重要性進行打分,若≥70%參與者評分 7~9 分且<15%參與者評分 1~3 分則指對納入核心結局指標集達成共識;若≥70%參與者評分 1~3 分且<15%參與者評分 7~9 分則對排除核心結局指標集達成共識。最終 7 個領域的 13 個指標納入到核心結局指標集[21]。
2 引入混合方法研究構建核心結局指標測量工具集
在完成核心結局指標集的構建后,研究者應為核心結局指標集中的每一個結局指標確定一個合適的測量工具。在選擇合適的結局指標測量工具時,既需評價測量工具的質量,也需充分考慮臨床醫生或研究者對測量工具性能的反饋及選擇測量工具的偏好。
目前國內尚未系統介紹選擇結局指標測量工具(即如何測量)的方法。截止到 2017 年 11 月,我國已有 7 個核心結局指標集研究在 COMET 數據庫注冊,但僅兩個研究提到在完成核心結局指標集后,通過共識會議確定核心指標的測量工具[22,23]。2016 年,COMET 工作組和“基于共識標準選擇健康測量工具”(Consensus-based standards for the selection of health measurement instruments,COSMIN)工作組聯合發布了指南,致力于幫助構建核心結局指標集的研究者在完成核心結局指標集后,為其中的每一個結局指標選擇一個合適的結局指標測量工具[24],即構建“核心結局指標測量工具集”。本文借鑒核心結局指標測量工具集指南,探討在臨床研究中選擇結局指標測量工具的方法。主要遵循 4 個步驟,具體如下:
2.1 明確測量指標及目標人群
明確測量的結局指標/結局指標域的概念及目標人群(如性別、年齡、疾病特征)是構建核心結局指標測量工具集的第一步。如對于卵巢癌、前列腺癌等具有明顯性別特征及特定臨床表現的疾病,在選擇結局指標測量工具時應考慮性別因素;在測量疼痛程度時,應考慮不同疼痛測量量表對成人及兒童的適用性[7];對接受姑息治療的患者,應考慮疾病程度,尤其是選擇的結局指標測量工具是否適合特殊人群,如有嚴重身體、認知和心理損傷的患者[25]。
2.2 全面獲得相關的結局指標測量工具的文獻
全面的文獻檢索是構建核心結局指標測量工具集的第二步。盡可能找到目前所有相關的結局指標測量工具,主要通過三種途徑:① 結局指標測量工具的系統評價。② 若無最新的系統評價,則研究者可以自己進行更新;若系統評價質量低或無相關的系統評價,研究者應進行新的系統評價。③ 其他相關的文獻。
2.3 評價結局指標測量工具的質量
采用 COSMIN 工作組制作的測量工具質量評價清單(即 COSMIN 清單)[26]評價結局指標測量工具的質量、性能及可行性是構建核心結局指標測量工具集的第三步。
COSMIN 清單包含 12 個框架 119 項條目,包括內部一致性(框架 A)、信度(框架 B)、測量誤差(框架 C)、內容效度(框架 D)、結構效度(框架 E)、假說檢驗(框架 F)、跨文化效度(框架 G)、效標效度(框架 H)、反應度(框架 I)和解釋性(框架 J)、條目反映理論(IRT 框架)和研究一般情況等,主要用于患者報告結局(PRO)量表的評價[11]。近期,COSMIN 工作組正在進行一個新的研究,以制作出適合非 PRO 測量工具的清單[19]。
核心結局指標測量工具集指南對結局指標測量工具的性能標準在 9 個方面達成共識,包括:內容效度、結構效度、內部一致性、信度、測量誤差、假設檢驗、跨文化效度、效標效度、反應度。研究者需要根據 COSMIN 清單評價所納入的文獻是否符合一定的標準,從而判斷結局指標測量工具的性能為“陰性”、“陽性”或“不確定”。指南指出,判斷結局測量工具性能的標準可以應用于所有類型的測量工具(如影像學、生物標記物、調查問卷、量表、實驗室檢查等)。
COSMIN 工作組推薦,在進行結局指標測量工具性能評估時,應預先確定測量性能的重要性,并按照不同測量性能重要程度的順序進行評估:① 首先評估內容效度。內容效度是最重要的測量性能,若結局指標測量工具的測量內容不清楚或內容效度性能很差,則評估其他性能沒有太大意義。② 其次評估內部結構(如結構效度、內部一致性、IRT 等)。若內部結構性能質量差,則沒有必要進一步評估其他性能。③ 若內容效度和內部結構的測量性能沒有問題,進一步評估其他性能(如信度、測量誤差、假設檢測、跨文化效度、效標效度、反應度)[27]。對結局指標測量工具的性能進行評估后,應綜合考慮每個測量工具性能的證據質量、研究的數量、研究的方法學質量及測量性能結果的一致性,得到結局指標測量工具總的證據質量(表 1)。

評價結局指標測量工具的性能及質量后,應進一步評估測量工具的可行性。指南推薦在進行可行性分析時,應考慮 17 個方面的內容,包括:患者是否可以理解、是否容易解釋、是否容易管理、結局指標測量工具的長度、完成測量的時間、患者的心智水平、是否容易標準化操作、臨床醫生是否可以理解、結局指標測量工具的類型、結局指標測量工具的費用、需要使用的儀器、管理類型、是否可在不同場合使用、版權、患者的體能水平、監管機構的批準要求、是否容易計算得分。
然而,由于研究者、德爾菲調查的參與者及共識會議的參與者未必了解或使用過每一個相關的測量工具,因此,在評估結局指標測量工具的質量時,可以加入對相關結局指標測量工具使用者的訪談,以更好地解釋結局指標測量工具的質量。
2.4 確定核心結局指標測量工具集
為納入的結局指標推薦最佳的測量工具是構建核心結局指標測量工具集的第四步。構建核心結局指標集和核心結局指標測量工具集的目的是為了減少不同研究中選擇結局指標或結局指標測量工具的多樣性,因此,指南指出每個結局指標僅推薦一個最佳的測量工具;如果當前沒有高質量的測量工具,可以暫時將可行性高、內容效度和內部一致性良好的測量工具納入工具集;此外,不同的利益相關群體(包括患者)還需對此達成共識。核心結局指標測量工具集的構建流程見圖 2。

一個急性腹瀉臨床研究核心結局指標集研究結果顯示,門診患者的核心指標有腹瀉持續時間、脫水程度、是否需要住院治療、48 h后痊愈患者比例、治療相關不良事件;住院患者核心指標有腹瀉持續時間、脫水程度、住院時間、48 h后痊愈患者比例、治療相關不良事件等。若要合理地測量該核心結局指標集的各指標,不僅應找到相關的結局指標測量工具,也應對相關的結局指標進行明確定義(因某些結局指標的測量僅需要明確定義)。該研究完成后,研究者首先通過文獻研究找到結局指標測量工具或需要測量的結局指標定義,然后進行德爾菲調查和共識會議,70% 共識小組成員對該結局指標的定義或結局指標測量工具達成共識的,納入核心結局指標測量工具集[28]。
3 非核心結局指標測量工具的選擇
在臨床研究中,使用核心結局指標集并非意味著不能選擇核心指標以外的結局指標進行測量[29]。研究者若選擇其他指標進行測量,也應遵循循證醫學所倡導的最佳證據理念,參考核心測量工具集的研究方法,通過系統評價獲得待測量的結局指標的測量工具;使用具有良好標準的清單對相關結局指標測量工具的性能(如信度、效度、反應度)進行評估[30, 31];進行定性研究,對不同測量工具的使用者(如臨床醫生或研究者)進行訪談或半結構化訪談,獲得測量工具的使用者對不同工具性能的認識,分析不同測量工具的缺陷及優勢,也可獲得不同測量工具的使用者選擇測量工具的傾向。最后通過共識方法,確定結局指標的定義或測量工具。這種方法也可以推廣到其他研究中,一方面幫助其他研究者避免選擇性能不好的結局指標測量工具,另一方面可以減少不同研究在結局指標測量工具選擇上的異質性,提高研究的價值。
4 小結
我國目前的臨床研究質量普遍較差,同類研究中選擇不同的結局指標或結局指標測量工具的現象很普遍,也有不少研究未提供結局指標的定義及結局指標測量工具,導致許多研究難以指導臨床實踐,或無法進行同類比較[32-34]。若在臨床研究中報告不合適的結局指標,或選擇性報告結局指標,或選擇不合適的結局指標測量工具,可能得到毫無價值的結果,達不到臨床研究的目的,也導致基于這些臨床研究而制作的系統評價或指南的質量偏低,降低研究價值或造成衛生資源浪費[35-37]。
目前,我國已有研究者關注到這些問題,并嘗試建立核心結局指標集,以規范臨床研究中結局指標的選擇,以期減少不同臨床研究中結局指標報告的異質性,減少選擇性偏倚的發生。但對結局指標測量工具的選擇關注不足,因此,核心結局指標集的研究者應在完成核心結局指標集后,為每一個納入核心結局指標集的結局指標選擇一個最佳的測量工具,并將核心結局指標集和核心結局指標測量工具集推廣應用到臨床研究中,以提高臨床研究的水平和價值,減少研究浪費。對于沒有納入核心結局指標集的結局指標,研究者也可以采用類似的方法,為其他指標選擇合適的測量工具。