引用本文: 溫兆瑞, 劉建, 聶廣寧, 李楊, 楊洪艷. 卵巢早衰隨機對照研究中結局指標的現狀分析. 華西醫學, 2021, 36(8): 1093-1101. doi: 10.7507/1002-0179.202011254 復制
卵巢早衰(premature ovarian failure,POF)/早發性卵巢功能不全(primary ovarian insufficiency,POI)是指女性在 40 歲前卵巢功能過早、完全衰退綜合征,以月經紊亂伴高促性腺激素和低雌激素為主要特征[1-3]。本病可導致生育力下降,增加患骨質疏松癥、心血管疾病的風險,嚴重影響婦女的生活質量及身心健康。目前激素治療是 POF/POI 的常規治療方案,但其無法從根本上恢復或逆轉女性的生殖功能及卵巢的儲備功能[4]。中醫藥治療本病有著豐富的臨床實踐經驗,為了獲得改善卵巢功能的有效療法,不少學者開展了治療 POF/POI 的隨機對照試驗(randomized controlled trial,RCT)研究,以期獲得有效治療 POF/POI 的臨床循證證據。臨床結局指標是指采用某種測量方法和指標來評估干預措施所呈現的治療效應,是干預措施是否有效、是否被國內外專業人士和患者廣泛認可的一個十分重要的因素[5-6],但通過查閱 POF/POI 的相關文獻發現,目前關于 POF/POI 的 RCT 研究中結局指標的選擇各有不同。既往研究發現,同類臨床研究中測量和報告的結局指標有很大差異[7],同類研究結果不能合并與比較,導致研究浪費[8-9]。因此本研究將對國內外公開發表的 POF/POI RCT 研究中結局指標進行分析與評價,以期為日后開展相關研究中結局指標的選擇提供充分的依據。
1 資料與方法
1.1 納入與排除標準
1.1.1 納入標準
① 研究設計類型:RCT;② 研究對象:POF/POI 患者,有明確的疾病診斷標準;③ 干預措施:西藥、中藥、針刺、艾灸、運動療法、心理療法等;④ 結局指標:至少報告 1 個結局指標。
1.1.2 排除標準
① 重復發表的研究;② 僅有摘要,通過與作者聯系、網站索取等方法后仍無法獲取全文的文獻;③ 數據無法提取利用的文獻等。
1.2 文獻檢索
使用計算機全面檢索中國知網中國期刊全文數據庫、萬方數據庫、維普期刊全文數據庫、中國生物醫學文獻服務系統、PubMed、Cochrane Library、Embase 中公開發表的期刊文獻、學位論文、學術論文、科研成果等。檢索年限為各數據庫從建庫至 2021 年 6 月。中文檢索詞包括“卵巢早衰”“早發性卵巢功能不全”“原發性卵巢功能不全”“卵巢功能減退”“卵巢功能衰退”“卵巢功能下降”“卵巢功能不全”“卵巢功能低下”“卵巢功能衰竭”“過早絕經”“卵巢低反應”等,英文檢索詞包括“primary ovarian insufficiency”“premature ovarian insufficiency”“premature ovarian failure”“premature ovarian dysfunction”“premature ovarian aging”“POA”“POR”“POF”“POI”“premature menopause”“premature”“amenorrhea”“early menopause”“climacterium praecox”“menopause praecox”等,利用“AND”“OR”“NOT”的運算法則對檢索詞進行組合。以中國知網中國期刊全文數據庫和 PubMed 數據庫為例,具體檢索策略見框 1。

1.3 文獻篩選與數據提取
由 2 名研究者獨立進行文獻檢索、篩選以及數據提取工作。2 名研究員組成研究小組通過獨立閱讀文章標題、摘要及全文,依據納入、排除標準進行篩選,初步篩選出合格的文獻。由于初篩的文獻質量不一,研究小組采用 Cochrane 偏倚風險評估工具對文獻進行嚴格的質量評價,從而對初篩文獻進行二次篩選。主要從選擇(包括隨機序列產生和分配隱藏)、實施(包括對研究者和受試者施盲)、測量(研究結局盲法評價)、隨訪(結局數據的完整性)、報告(選擇性報告研究結果)及其他(其他偏倚來源)這 6 個方面總計 7 個條目對偏倚風險進行評價,對每個條目依據偏倚風險評估準則作出“低偏倚風險”“高偏倚風險”和“不清楚”的判定結果[10]。由于絕大部分文獻選擇偏倚(分配隱藏)及實施偏倚均為“高偏倚風險”,其他偏倚為“不清楚”,因此為保證文獻的數量及盡可能減少文章之間的異質性,最終篩選出選擇偏倚(隨機序列的產生)、隨訪偏倚、報告偏倚為“低偏倚風險”并排除測量偏倚“高偏倚風險”的文獻。采用 Excel 設計資料提取表格,對納入 RCT 提取結局指標資料。對在文獻選擇和資料提取過程中的不確定因素 2 名研究員進行商討決議,如遇分歧,則邀請第三人仲裁,最后統一對納入研究的結局指標進行總結、歸納。
1.4 結局指標分類
1.4.1 主要與次要結局指標
主要結局指標是指最能代表臨床意義且最能說明研究問題的指標;次要結局指標指在主要結局指標不可行的情況下進行替代的間接指標,能完全反映干預所引起的主要結局指標的變化[11]。
1.4.2 獨立指標與復合指標
用單項評價指標評估臨床研究的有效率可被認為是獨立指標[12],包括實驗室的生物學指標、影像學指標和與癥狀、體征評價相關的指標等。如果單個指標無法說明目的,有時會將多個獨立指標構成復合指標來作為結局評價指標,即對各獨立指標賦分,給各獨立指標一個權重,然后將各指標的賦分乘以其權重相加,以反映干預方案對患者產生各種影響的綜合療效[13]。
2 結果
2.1 文獻篩選
文獻篩選流程及結果見圖 1。

*具體包括:中國知網(
2.1.1 初步篩選
依據檢索策略,通過數據庫初步檢索到 4 954 篇文獻,其中中文文獻 2 909 篇、英文文獻 2 045 篇。結合 NoteExpress 軟件自動查重功能和人工查重后剔除重復文獻 954 篇,閱讀文題、摘要及全文后剔除不符合納入標準文獻 3 339 篇,初步納入研究文獻 661 篇。
2.1.2 根據 Cochrane 偏倚風險評估工具進行二次篩選
圍繞 Cochrane 偏倚風險評估工具的 7 個評價條目,最終共納入 186 篇文獻,包括中文文獻 180 篇、英文文獻 6 篇。
2.2 納入研究基本特征
納入的 186 篇文獻均為 RCT 研究。文獻發表年份多為 2016 年及以后,樣本量均在 200 例及以下;隨機方法方面,以隨機數字表法最多;絕大多數文獻沒有采用盲法。具體見表 1。

2.3 納入研究偏倚風險評價
所有納入文獻選擇偏倚(隨機序列的產生)、隨訪偏倚(結局無缺失數據)、報告偏倚(研究方案不可得,但報告包含了所有期望的結果,包括那些預先申明的)均為低偏倚風險;選擇偏倚(分配隱藏)方面:1 篇中文 RCT 研究闡明了分配隱藏方案為中央隨機,1 篇英文 RCT 研究為密封的信封,其余中英文 RCT 研究均無充足的信息判定分配隱匿方案的等級;實施偏倚(研究者和受試者施盲)方面:1 篇中文和 2 篇英文 RCT 研究中治療藥物采用盲法設計,即兩組藥物在外包裝、劑型、藥物外觀、形狀、顏色等方面完全一致,其余文獻均未提及盲法;測量偏倚(研究結局盲法評價)方面:30 篇中文和 3 篇英文 RCT 研究以客觀指標為療效評價標準,全文雖未對結局進行盲法評價,但綜述結局指標不太可能受盲法缺失的影響;其他偏倚方面:所有 RCT 研究均無足夠的信息評價是否存在重要的偏倚風險。納入文獻偏倚風險分析見圖 2。

2.4 結局指標
2.4.1 指標域
納入 RCT 研究共采用 75 個結局指標,單個 RCT 研究中結局指標的組成不同,少則 1 個結局指標,多則 5~6 個結局指標。由于結局指標差異過大,為了便于統計與分析,研究小組根據結局指標的自身特點分為 3 類:癥狀/體征、實驗室檢查、影像學檢查。納入 RCT 研究結局指標的指標域見圖 3。

Ig:免疫球蛋白;IL:白細胞介素;TLR:Toll 樣受體
2.4.2 納入研究主要及次要結局指標報告分析
180 篇中文 RCT、6 篇英文 RCT 研究中,2 篇(1.11%)中文 RCT、1 篇(16.67%)英文 RCT 明確指出主要、次要結局指標。這 2 篇中文 RCT 中,一篇的主要結局指標為血清激素水平、竇卵泡計數,次要結局指標為焦慮自評量表評分;另一篇的主要結局指標為焦慮自評量表評分、改良 Kupperman 評分,次要結局指標為血清激素水平。該英文 RCT 的主要結局指標為血清激素水平、子宮內膜厚度、>18 mm 的卵泡數,次要結局指標為妊娠成功率。其余 178 篇(98.89%)中文 RCT、5 篇(83.33%)英文 RCT 均未明確指出主要、次要結局指標。
2.4.3 納入研究獨立指標和復合指標運用的報告分析
180 篇中文 RCT、6 篇英文 RCT 研究中,19 篇(10.56%)中文 RCT、4 篇(66.67%)英文 RCT 采用獨立指標作為療效評價標準,4 篇(2.22%)中文 RCT 采用復合指標作為療效評價標準,157 篇(87.22%)中文 RCT、2 篇(33.33%)英文 RCT 同時采用獨立指標及復合指標進行療效評價(表 2)。納入研究中獨立指標主要包括癥狀/體征、實驗室檢查、影像學檢查 3 類,組成及頻次詳見表 3,具體內容及頻次詳見表 4。復合指標的制定主要參考《中醫病癥診斷療效標準》《中藥新藥臨床研究指導原則》《中華婦產科學》《中醫婦科學》等,再結合研究的主要目的添加具體療效評價指標組合而成,單個研究中可出現數量不等的復合指標;復合指標多用 3 個等級計數(治愈、有效、無效)或 4 個等級計數(治愈、顯效、有效、無效)作為綜合療效評價的標準,計算總有效率。復合指標的參照標準及頻次詳見表 5。




3 討論
POF/POI 作為常見婦科疾病,嚴重損害女性的生育功能及心理健康。如何延緩 POF/POI 患者卵巢功能衰退的進程一直以來都是婦科生殖內分泌探討的重點內容。近年來,為獲得改善卵巢功能更加有效的療法,越來越多的學者開展了有關 POF/POI 的 RCT 研究。但是由于結局指標的不規范性,RCT 研究中結局指標差異性很大,使得不同研究結果無法合并,無法給臨床實踐提供更高級別的證據,從而造成資源浪費。本研究通過分析所有國內外有關 POF/POI 的 RCT 研究中結局指標的現狀,以期為日后 POF/POI 臨床研究中結局指標的標準化、規范化提供依據。
3.1 POF/POI RCT 研究中結局指標存在的主要問題
3.1.1 忽視主要、次要結局指標
在 RCT 研究中,不同結局指標所代表和說明治療措施的臨床療效和臨床意義的效能不同,不能一概而論。首先,只有主要臨床結局指標才能說明治療的效果和臨床意義,才具有臨床推廣的價值;次要結局指標只有在經過嚴格驗證的基礎才能得出上述結論,否則只能提出其可能有的臨床意義或治療效果的可能機制[14]。其次,分清主要、次要結局指標,有助于明確研究的主要方向,降低報告偏倚風險。本研究納入 RCT 研究中僅 2 篇(1.11%)中文 RCT、1 篇(16.67%)英文 RCT 報告了主要、次要結局指標,大部分研究均未對結局指標作主次區分,且將多個主觀指標、客觀指標羅列或隨意組合,缺乏科學依據。
3.1.2 臨床研究結局指標選擇缺乏標準
186 個納入研究共采用 75 個結局指標,單個研究中結局指標的組成不同,少則 1 個結局指標,多則 5~6 個結局指標,數量選擇不一。結局指標只有被證實與重要臨床結局有相關性,并確定是由于干預措施所帶來的結果時,其作為療效判定指標才有意義。要想證明某個結局指標可完全代替真正的臨床結局,需要非常繁瑣、復雜的試驗、驗證過程。對于結局指標的構成要素尚無規范可尋,需根據疾病的發病特點以及治療干預措施的目的進行制定。
3.1.3 臨床癥狀評價量表使用率低,多用自擬量表
雌激素水平下降會引起潮熱汗出、睡眠障礙、情緒障礙等。臨床上常用 Kupperman 評分量表、更年期生存質量量表、絕經評定量表等國際公認的量表進行量化及客觀性的評價[15]。本研究納入研究中有較多 RCT 研究使用計算臨床癥候積分的方法對卵巢衰退過程中低雌激素引發的臨床癥狀進行量化,其評價標準均依據《中藥新藥臨床研究指導原則》《中醫病癥診斷療效標準》或自擬中醫癥候積分進行軟指標的評價。這些自擬量表的設立缺乏科學嚴格、規范化、標準性的研制過程,不利于合理地判斷治療干預措施的有效性。
3.1.4 復合指標來源不清晰,缺乏嚴格的研制過程
運用復合指標作為療效評價標準可以提高終點事件的發生率,從而減少所需的樣本量,還可以有效避免競爭風險。當選擇幾個重要性相似的指標存在爭議時,應用復合指標既可以避免這一選擇上的困惑,還能全面評價干預措施的療效,提高統計學檢驗效能[16]。復合指標的制定需要規范性、嚴謹性、科學性,要求只有當疾病幾個維度的指標總是比較同步但單一指標不敏感時可以綜合,這樣容易解釋臨床意義與指導決策。但是目前國內很多指南中復合指標的設立并未體現其研制過程,其所采用獨立指標的權重并無統一標準,故臨床應用缺乏說服力。本研究發現研究者常自擬復合結局指標,其內容、評價等級都差異很大,導致不同試驗間的療效結果缺乏可比性。且參照標準基本為專家共識,無高級別循證證據證明標準性以及準確性。當獨立指標結論不同步時(有的指標有效,有的無效,甚至方向相反),不推薦綜合為復合指標。例如納入研究的復合指標將性激素與月經來潮次數進行綜合時,性激素在月經周期間波動較大,其水平的下降也并非意味著卵巢排卵,尤其是采用激素治療為治療方案的研究,激素治療必然會降低血清性激素的水平,同時造成月經來潮,因此將其綜合不甚恰當。
本研究顯示許多研究者同時采用了獨立指標和復合指標兩套指標。使用復合指標時需要準確選擇其組成的獨立指標,即使復合指標療效評價指標被認為具有統計學意義和臨床相關性,也應同時報告干預措施對各獨立指標的影響。當各組成事件對患者的重要性不一致時,還需要計算各指標的權重[16]。
3.2 對 POF/POI 臨床研究結局指標的建議
由于卵巢功能衰退漸進性的特點,不同階段的 POF/POI 患者有著不同的臨床需求:早中期以促孕、恢復規律月經為目的,晚期以改善低雌激素引發的絕經相關癥狀為目的。我們需要明確治療目的,認識療效指標的優勢和不足,從而選擇合適的療效評價指標。對于卵巢衰退早中期治療以改善月經、促進殘余卵泡發育為目標,故自然月經周期以及排卵次數應該作為主要結局指標,血清基礎性激素、抗苗勒管激素、抑制素 B、竇卵泡計數可以作為次要結局指標,但是對于激素治療來說,性激素作為療效指標的臨床意義不大。對于卵巢衰竭的晚期,如已經無法促殘余卵泡的發育,用量表評分的方法評估低雌激素癥狀的改善應該作為主要結局指標。
核心指標集是指特定健康領域的臨床研究中應當被測量和報告的必要結局指標的最小集合[17]。核心指標集的提出不僅可以使臨床試驗簡單化、選擇性結局報告偏倚最小化,更重要的是,核心指標集的使用可以減少研究之間結局報告的異質性,使結局報告之間具有可比性,還可合并研究結局報告提供綜合證據[18]。因此,根據分析結果,我們建議進一步建立 POF/POI 核心指標集規范結局指標。我們檢索核心指標集研究方案的國際注冊平臺 COMET(Core Outcome Measures in Effectiveness Trials)數據庫發現,POF/POI 核心指標集的研制工作尚未開展。建立有關 POF/POI RCT 研究的核心指標集有助于為日后開展相關研究中結局指標的選擇提供一個最佳的測量工具,使研究更加具有規范性、一致性、統一性。
綜上所述,國內外有關 POF/POI 研究結局指標的選擇和使用尚不規范,希望通過本次研究,能夠加深 POF/POI 研究者對結局療效評價指標的理解,在今后結局指標的選擇中,更加規范化、一致化、統一化,使研究結論更具有說服力。建立有關 POF/POI RCT 研究的核心指標集,有助于臨床試驗簡單化、選擇性結局報告偏倚最小化,減少研究之間結局報告的異質性,提升臨床研究質量[18]。本研究仍存在一定的局限性,本研究檢索的文章方法學質量參差不齊,雖通過 Cochrane 偏倚風險評價工具對納入研究進行了評價,但未補充使用其他工具進行方法學質量評價,評估體系還不完善,日后有待進一步完善與提高。
卵巢早衰(premature ovarian failure,POF)/早發性卵巢功能不全(primary ovarian insufficiency,POI)是指女性在 40 歲前卵巢功能過早、完全衰退綜合征,以月經紊亂伴高促性腺激素和低雌激素為主要特征[1-3]。本病可導致生育力下降,增加患骨質疏松癥、心血管疾病的風險,嚴重影響婦女的生活質量及身心健康。目前激素治療是 POF/POI 的常規治療方案,但其無法從根本上恢復或逆轉女性的生殖功能及卵巢的儲備功能[4]。中醫藥治療本病有著豐富的臨床實踐經驗,為了獲得改善卵巢功能的有效療法,不少學者開展了治療 POF/POI 的隨機對照試驗(randomized controlled trial,RCT)研究,以期獲得有效治療 POF/POI 的臨床循證證據。臨床結局指標是指采用某種測量方法和指標來評估干預措施所呈現的治療效應,是干預措施是否有效、是否被國內外專業人士和患者廣泛認可的一個十分重要的因素[5-6],但通過查閱 POF/POI 的相關文獻發現,目前關于 POF/POI 的 RCT 研究中結局指標的選擇各有不同。既往研究發現,同類臨床研究中測量和報告的結局指標有很大差異[7],同類研究結果不能合并與比較,導致研究浪費[8-9]。因此本研究將對國內外公開發表的 POF/POI RCT 研究中結局指標進行分析與評價,以期為日后開展相關研究中結局指標的選擇提供充分的依據。
1 資料與方法
1.1 納入與排除標準
1.1.1 納入標準
① 研究設計類型:RCT;② 研究對象:POF/POI 患者,有明確的疾病診斷標準;③ 干預措施:西藥、中藥、針刺、艾灸、運動療法、心理療法等;④ 結局指標:至少報告 1 個結局指標。
1.1.2 排除標準
① 重復發表的研究;② 僅有摘要,通過與作者聯系、網站索取等方法后仍無法獲取全文的文獻;③ 數據無法提取利用的文獻等。
1.2 文獻檢索
使用計算機全面檢索中國知網中國期刊全文數據庫、萬方數據庫、維普期刊全文數據庫、中國生物醫學文獻服務系統、PubMed、Cochrane Library、Embase 中公開發表的期刊文獻、學位論文、學術論文、科研成果等。檢索年限為各數據庫從建庫至 2021 年 6 月。中文檢索詞包括“卵巢早衰”“早發性卵巢功能不全”“原發性卵巢功能不全”“卵巢功能減退”“卵巢功能衰退”“卵巢功能下降”“卵巢功能不全”“卵巢功能低下”“卵巢功能衰竭”“過早絕經”“卵巢低反應”等,英文檢索詞包括“primary ovarian insufficiency”“premature ovarian insufficiency”“premature ovarian failure”“premature ovarian dysfunction”“premature ovarian aging”“POA”“POR”“POF”“POI”“premature menopause”“premature”“amenorrhea”“early menopause”“climacterium praecox”“menopause praecox”等,利用“AND”“OR”“NOT”的運算法則對檢索詞進行組合。以中國知網中國期刊全文數據庫和 PubMed 數據庫為例,具體檢索策略見框 1。

1.3 文獻篩選與數據提取
由 2 名研究者獨立進行文獻檢索、篩選以及數據提取工作。2 名研究員組成研究小組通過獨立閱讀文章標題、摘要及全文,依據納入、排除標準進行篩選,初步篩選出合格的文獻。由于初篩的文獻質量不一,研究小組采用 Cochrane 偏倚風險評估工具對文獻進行嚴格的質量評價,從而對初篩文獻進行二次篩選。主要從選擇(包括隨機序列產生和分配隱藏)、實施(包括對研究者和受試者施盲)、測量(研究結局盲法評價)、隨訪(結局數據的完整性)、報告(選擇性報告研究結果)及其他(其他偏倚來源)這 6 個方面總計 7 個條目對偏倚風險進行評價,對每個條目依據偏倚風險評估準則作出“低偏倚風險”“高偏倚風險”和“不清楚”的判定結果[10]。由于絕大部分文獻選擇偏倚(分配隱藏)及實施偏倚均為“高偏倚風險”,其他偏倚為“不清楚”,因此為保證文獻的數量及盡可能減少文章之間的異質性,最終篩選出選擇偏倚(隨機序列的產生)、隨訪偏倚、報告偏倚為“低偏倚風險”并排除測量偏倚“高偏倚風險”的文獻。采用 Excel 設計資料提取表格,對納入 RCT 提取結局指標資料。對在文獻選擇和資料提取過程中的不確定因素 2 名研究員進行商討決議,如遇分歧,則邀請第三人仲裁,最后統一對納入研究的結局指標進行總結、歸納。
1.4 結局指標分類
1.4.1 主要與次要結局指標
主要結局指標是指最能代表臨床意義且最能說明研究問題的指標;次要結局指標指在主要結局指標不可行的情況下進行替代的間接指標,能完全反映干預所引起的主要結局指標的變化[11]。
1.4.2 獨立指標與復合指標
用單項評價指標評估臨床研究的有效率可被認為是獨立指標[12],包括實驗室的生物學指標、影像學指標和與癥狀、體征評價相關的指標等。如果單個指標無法說明目的,有時會將多個獨立指標構成復合指標來作為結局評價指標,即對各獨立指標賦分,給各獨立指標一個權重,然后將各指標的賦分乘以其權重相加,以反映干預方案對患者產生各種影響的綜合療效[13]。
2 結果
2.1 文獻篩選
文獻篩選流程及結果見圖 1。

*具體包括:中國知網(
2.1.1 初步篩選
依據檢索策略,通過數據庫初步檢索到 4 954 篇文獻,其中中文文獻 2 909 篇、英文文獻 2 045 篇。結合 NoteExpress 軟件自動查重功能和人工查重后剔除重復文獻 954 篇,閱讀文題、摘要及全文后剔除不符合納入標準文獻 3 339 篇,初步納入研究文獻 661 篇。
2.1.2 根據 Cochrane 偏倚風險評估工具進行二次篩選
圍繞 Cochrane 偏倚風險評估工具的 7 個評價條目,最終共納入 186 篇文獻,包括中文文獻 180 篇、英文文獻 6 篇。
2.2 納入研究基本特征
納入的 186 篇文獻均為 RCT 研究。文獻發表年份多為 2016 年及以后,樣本量均在 200 例及以下;隨機方法方面,以隨機數字表法最多;絕大多數文獻沒有采用盲法。具體見表 1。

2.3 納入研究偏倚風險評價
所有納入文獻選擇偏倚(隨機序列的產生)、隨訪偏倚(結局無缺失數據)、報告偏倚(研究方案不可得,但報告包含了所有期望的結果,包括那些預先申明的)均為低偏倚風險;選擇偏倚(分配隱藏)方面:1 篇中文 RCT 研究闡明了分配隱藏方案為中央隨機,1 篇英文 RCT 研究為密封的信封,其余中英文 RCT 研究均無充足的信息判定分配隱匿方案的等級;實施偏倚(研究者和受試者施盲)方面:1 篇中文和 2 篇英文 RCT 研究中治療藥物采用盲法設計,即兩組藥物在外包裝、劑型、藥物外觀、形狀、顏色等方面完全一致,其余文獻均未提及盲法;測量偏倚(研究結局盲法評價)方面:30 篇中文和 3 篇英文 RCT 研究以客觀指標為療效評價標準,全文雖未對結局進行盲法評價,但綜述結局指標不太可能受盲法缺失的影響;其他偏倚方面:所有 RCT 研究均無足夠的信息評價是否存在重要的偏倚風險。納入文獻偏倚風險分析見圖 2。

2.4 結局指標
2.4.1 指標域
納入 RCT 研究共采用 75 個結局指標,單個 RCT 研究中結局指標的組成不同,少則 1 個結局指標,多則 5~6 個結局指標。由于結局指標差異過大,為了便于統計與分析,研究小組根據結局指標的自身特點分為 3 類:癥狀/體征、實驗室檢查、影像學檢查。納入 RCT 研究結局指標的指標域見圖 3。

Ig:免疫球蛋白;IL:白細胞介素;TLR:Toll 樣受體
2.4.2 納入研究主要及次要結局指標報告分析
180 篇中文 RCT、6 篇英文 RCT 研究中,2 篇(1.11%)中文 RCT、1 篇(16.67%)英文 RCT 明確指出主要、次要結局指標。這 2 篇中文 RCT 中,一篇的主要結局指標為血清激素水平、竇卵泡計數,次要結局指標為焦慮自評量表評分;另一篇的主要結局指標為焦慮自評量表評分、改良 Kupperman 評分,次要結局指標為血清激素水平。該英文 RCT 的主要結局指標為血清激素水平、子宮內膜厚度、>18 mm 的卵泡數,次要結局指標為妊娠成功率。其余 178 篇(98.89%)中文 RCT、5 篇(83.33%)英文 RCT 均未明確指出主要、次要結局指標。
2.4.3 納入研究獨立指標和復合指標運用的報告分析
180 篇中文 RCT、6 篇英文 RCT 研究中,19 篇(10.56%)中文 RCT、4 篇(66.67%)英文 RCT 采用獨立指標作為療效評價標準,4 篇(2.22%)中文 RCT 采用復合指標作為療效評價標準,157 篇(87.22%)中文 RCT、2 篇(33.33%)英文 RCT 同時采用獨立指標及復合指標進行療效評價(表 2)。納入研究中獨立指標主要包括癥狀/體征、實驗室檢查、影像學檢查 3 類,組成及頻次詳見表 3,具體內容及頻次詳見表 4。復合指標的制定主要參考《中醫病癥診斷療效標準》《中藥新藥臨床研究指導原則》《中華婦產科學》《中醫婦科學》等,再結合研究的主要目的添加具體療效評價指標組合而成,單個研究中可出現數量不等的復合指標;復合指標多用 3 個等級計數(治愈、有效、無效)或 4 個等級計數(治愈、顯效、有效、無效)作為綜合療效評價的標準,計算總有效率。復合指標的參照標準及頻次詳見表 5。




3 討論
POF/POI 作為常見婦科疾病,嚴重損害女性的生育功能及心理健康。如何延緩 POF/POI 患者卵巢功能衰退的進程一直以來都是婦科生殖內分泌探討的重點內容。近年來,為獲得改善卵巢功能更加有效的療法,越來越多的學者開展了有關 POF/POI 的 RCT 研究。但是由于結局指標的不規范性,RCT 研究中結局指標差異性很大,使得不同研究結果無法合并,無法給臨床實踐提供更高級別的證據,從而造成資源浪費。本研究通過分析所有國內外有關 POF/POI 的 RCT 研究中結局指標的現狀,以期為日后 POF/POI 臨床研究中結局指標的標準化、規范化提供依據。
3.1 POF/POI RCT 研究中結局指標存在的主要問題
3.1.1 忽視主要、次要結局指標
在 RCT 研究中,不同結局指標所代表和說明治療措施的臨床療效和臨床意義的效能不同,不能一概而論。首先,只有主要臨床結局指標才能說明治療的效果和臨床意義,才具有臨床推廣的價值;次要結局指標只有在經過嚴格驗證的基礎才能得出上述結論,否則只能提出其可能有的臨床意義或治療效果的可能機制[14]。其次,分清主要、次要結局指標,有助于明確研究的主要方向,降低報告偏倚風險。本研究納入 RCT 研究中僅 2 篇(1.11%)中文 RCT、1 篇(16.67%)英文 RCT 報告了主要、次要結局指標,大部分研究均未對結局指標作主次區分,且將多個主觀指標、客觀指標羅列或隨意組合,缺乏科學依據。
3.1.2 臨床研究結局指標選擇缺乏標準
186 個納入研究共采用 75 個結局指標,單個研究中結局指標的組成不同,少則 1 個結局指標,多則 5~6 個結局指標,數量選擇不一。結局指標只有被證實與重要臨床結局有相關性,并確定是由于干預措施所帶來的結果時,其作為療效判定指標才有意義。要想證明某個結局指標可完全代替真正的臨床結局,需要非常繁瑣、復雜的試驗、驗證過程。對于結局指標的構成要素尚無規范可尋,需根據疾病的發病特點以及治療干預措施的目的進行制定。
3.1.3 臨床癥狀評價量表使用率低,多用自擬量表
雌激素水平下降會引起潮熱汗出、睡眠障礙、情緒障礙等。臨床上常用 Kupperman 評分量表、更年期生存質量量表、絕經評定量表等國際公認的量表進行量化及客觀性的評價[15]。本研究納入研究中有較多 RCT 研究使用計算臨床癥候積分的方法對卵巢衰退過程中低雌激素引發的臨床癥狀進行量化,其評價標準均依據《中藥新藥臨床研究指導原則》《中醫病癥診斷療效標準》或自擬中醫癥候積分進行軟指標的評價。這些自擬量表的設立缺乏科學嚴格、規范化、標準性的研制過程,不利于合理地判斷治療干預措施的有效性。
3.1.4 復合指標來源不清晰,缺乏嚴格的研制過程
運用復合指標作為療效評價標準可以提高終點事件的發生率,從而減少所需的樣本量,還可以有效避免競爭風險。當選擇幾個重要性相似的指標存在爭議時,應用復合指標既可以避免這一選擇上的困惑,還能全面評價干預措施的療效,提高統計學檢驗效能[16]。復合指標的制定需要規范性、嚴謹性、科學性,要求只有當疾病幾個維度的指標總是比較同步但單一指標不敏感時可以綜合,這樣容易解釋臨床意義與指導決策。但是目前國內很多指南中復合指標的設立并未體現其研制過程,其所采用獨立指標的權重并無統一標準,故臨床應用缺乏說服力。本研究發現研究者常自擬復合結局指標,其內容、評價等級都差異很大,導致不同試驗間的療效結果缺乏可比性。且參照標準基本為專家共識,無高級別循證證據證明標準性以及準確性。當獨立指標結論不同步時(有的指標有效,有的無效,甚至方向相反),不推薦綜合為復合指標。例如納入研究的復合指標將性激素與月經來潮次數進行綜合時,性激素在月經周期間波動較大,其水平的下降也并非意味著卵巢排卵,尤其是采用激素治療為治療方案的研究,激素治療必然會降低血清性激素的水平,同時造成月經來潮,因此將其綜合不甚恰當。
本研究顯示許多研究者同時采用了獨立指標和復合指標兩套指標。使用復合指標時需要準確選擇其組成的獨立指標,即使復合指標療效評價指標被認為具有統計學意義和臨床相關性,也應同時報告干預措施對各獨立指標的影響。當各組成事件對患者的重要性不一致時,還需要計算各指標的權重[16]。
3.2 對 POF/POI 臨床研究結局指標的建議
由于卵巢功能衰退漸進性的特點,不同階段的 POF/POI 患者有著不同的臨床需求:早中期以促孕、恢復規律月經為目的,晚期以改善低雌激素引發的絕經相關癥狀為目的。我們需要明確治療目的,認識療效指標的優勢和不足,從而選擇合適的療效評價指標。對于卵巢衰退早中期治療以改善月經、促進殘余卵泡發育為目標,故自然月經周期以及排卵次數應該作為主要結局指標,血清基礎性激素、抗苗勒管激素、抑制素 B、竇卵泡計數可以作為次要結局指標,但是對于激素治療來說,性激素作為療效指標的臨床意義不大。對于卵巢衰竭的晚期,如已經無法促殘余卵泡的發育,用量表評分的方法評估低雌激素癥狀的改善應該作為主要結局指標。
核心指標集是指特定健康領域的臨床研究中應當被測量和報告的必要結局指標的最小集合[17]。核心指標集的提出不僅可以使臨床試驗簡單化、選擇性結局報告偏倚最小化,更重要的是,核心指標集的使用可以減少研究之間結局報告的異質性,使結局報告之間具有可比性,還可合并研究結局報告提供綜合證據[18]。因此,根據分析結果,我們建議進一步建立 POF/POI 核心指標集規范結局指標。我們檢索核心指標集研究方案的國際注冊平臺 COMET(Core Outcome Measures in Effectiveness Trials)數據庫發現,POF/POI 核心指標集的研制工作尚未開展。建立有關 POF/POI RCT 研究的核心指標集有助于為日后開展相關研究中結局指標的選擇提供一個最佳的測量工具,使研究更加具有規范性、一致性、統一性。
綜上所述,國內外有關 POF/POI 研究結局指標的選擇和使用尚不規范,希望通過本次研究,能夠加深 POF/POI 研究者對結局療效評價指標的理解,在今后結局指標的選擇中,更加規范化、一致化、統一化,使研究結論更具有說服力。建立有關 POF/POI RCT 研究的核心指標集,有助于臨床試驗簡單化、選擇性結局報告偏倚最小化,減少研究之間結局報告的異質性,提升臨床研究質量[18]。本研究仍存在一定的局限性,本研究檢索的文章方法學質量參差不齊,雖通過 Cochrane 偏倚風險評價工具對納入研究進行了評價,但未補充使用其他工具進行方法學質量評價,評估體系還不完善,日后有待進一步完善與提高。