為探討計劃驗證設備用于容積旋轉調強放療(VMAT)計劃驗證的γ通過率限值及其對多葉準直器(MLC)開合誤差的敏感性,本研究選取50例含順時針和逆時針兩個全弧的鼻咽癌VMAT計劃,對其中10例引入8種大小的MLC開合誤差,生成80例含誤差的計劃。首先,對單野和合成野使用計劃驗證設備進行驗證并執行劑量差異3%、距離差異2 mm、10%劑量閾值、絕對劑量全局歸一條件下的γ分析,再使用梯度分析研究合成野和單野對MLC開合誤差的敏感性,并使用受試者工作特征曲線(ROC)研究識別誤差的最佳通過率閾值。然后,對另外40例應用統計過程控制(SPC)方法計算γ通過率的容差限值和干預限值,將SPC容差限值、通用容差限值(95%)對誤差的識別能力與ROC最佳閾值對誤差的識別能力進行比較。研究結果顯示,對于合成野、順時針弧及逆時針弧,γ通過率隨每毫米MLC打開誤差下降的梯度分別為10.61%、7.62%及6.66%,隨每毫米MLC閉合誤差下降的梯度分別為9.75%、7.36%及6.37%。ROC方法得到的最佳閾值分別為99.35%、97.95%及98.25%;SPC方法得到的容差限值分別為98.98%、97.74%及98.62%。SPC容差限值與ROC最佳閾值較為接近,兩者均能識別全部±2 mm的錯誤,而通用容差限值只能部分識別,說明通用容差限值對部分較大的誤差并不敏感。因此綜合考慮易用性、精確性等因素,在臨床實踐中建議可使用實際射野角度合成測量的方法,并根據SPC方法制定與機構自身流程相適宜的通過率限值。綜上,期待本文研究結果可為各機構優化放療計劃驗證流程、設置合適的通過率限值、促進放療計劃驗證規范化提供一定的參考。
引用本文: 胡金有, 鄒煉, 顧少嫻, 王寧宇, 崔鳳潔, 張盛元, 尹楚歐, 蔡蕓竹, 勾成俊, 吳章文. 容積旋轉調強放療計劃驗證設備對多葉準直器開合誤差的敏感性及其伽馬通過率限值研究. 生物醫學工程學雜志, 2023, 40(1): 133-140. doi: 10.7507/1001-5515.202112018 復制
0 引言
隨著放射治療技術的發展,容積旋轉調強放療(volumetric modulated arc therapy,VMAT)已逐漸成為首選的放療技術之一。相較于固定野調強放療,VMAT在提高治療效率的同時可獲得更加適形的靶區劑量分布和更好的正常組織保護,但其涉及的可調制參數更加復雜多樣,大機架旋轉的同時,多葉準直器(multi-leaf collimator,MLC)位置和運動速度、加速器出束劑量率等多種參數都在不斷變化,因此對VMAT計劃的質控是其臨床使用中的重點和難點之一[1-2]。患者治療計劃的驗證是放療質控中的重要環節,其目的是通過驗證設備來比對加速器實際投照劑量分布和計劃劑量分布間的一致性,目前常用的比對方法是基于劑量和距離一致性的γ分析法[3]。然而計劃驗證的測量方式及其γ分析標準在各機構間并未形成統一的規范。對測量方式而言,以往的一些研究表明,逐個射野單獨測量可能比各野合成測量更加嚴格,因為后者可能會掩蓋一些錯誤[4-6];但這些研究大多是指射野角度歸零后的驗證情況,對實際射野角度合成測量與實際射野角度單獨測量間的比對研究較少。γ分析標準方面,美國醫學物理師協會(The American Association of Physicists in Medicine,AAPM)第119號工作組報告(task group No.119,TG-119)中采用Palta等[7]提出的方法得到在劑量差異3%、距離差異3 mm條件下合成野的γ通過率限值為88%,單野的限值為93%[8]。Carlone等[9]使用受試者工作特征曲線(receiver operating characteristic curve,ROC)研究了計劃驗證設備MapCHECK 2(Sun Nuclear Corp.,美國)在不同γ分析參數下驗證前列腺調強放療計劃的γ通過率限值。不同研究使用的分析條件、驗證設備以及得到的γ通過率限值往往并不相同。為促進計劃驗證過程的規范化,AAPM第218號工作組報告(task group No.218,TG-218)建議,在測量設備允許的情況下,采用實際射野角度合成測量,并使用容差限值和干預限值對計劃驗證過程進行控制,推薦采用劑量差異3%、距離差異2 mm、劑量閾值設置為10%、絕對劑量全局歸一的γ分析條件,并建議此條件下γ通過率的通用容差限值為95%,干預限值為90%;若通過率高于容差限值則表示計劃的實際執行與計劃設計之間高度吻合,計劃可通過驗證;若低于干預限值則表示計劃在實際執行過程中可能出現對患者治療產生負面影響的誤差,計劃不能通過驗證[10];若通過率處于干預限值和容差限值之間,則需經物理師審查后決定計劃是否可通過驗證。該報告還介紹了基于統計過程控制(statistical process control,SPC)計算各機構個性化γ通過率容差限值和干預限值的方法[10-13]。
針對計劃驗證設備的研究較多,但這些研究主要集中在設備自身物理特性及其與其他設備間的比較方面[14-17]。雖有相關研究使用SPC方法對計劃驗證的γ通過率限值進行了報道,但缺乏使用該限值對含誤差計劃的實際識別能力測試,也缺乏使用不同測量方式、不同通過率限值時的誤差識別能力比較[18-20]。本研究對鼻咽癌VMAT計劃模擬了具有較大臨床影響的MLC開合誤差,用以檢測不同測量方式對這種較大臨床誤差的敏感性,并將TG-218號報告推薦的通用容差限值、SPC方法計算所得的容差限值對誤差的識別能力與ROC方法所得的最佳閾值對誤差的識別能力進行比較,探討不同測量方式下使用不同通過率限值對該類誤差的識別能力,以期加深對此類設備和不同通過率限值的理解和認識,為其臨床使用提供參考。
1 材料與方法
1.1 計劃選取與研究流程
本研究所有原始計劃均來自四川省人民醫院腫瘤放射治療中心,研究中的計劃用于驅動加速器按計劃對驗證設備進行照射,全過程不涉及任何人體或動物,不涉及對任何人或動物的數據采集,不會對任何人或動物的權益造成損害。在本機構計劃數據庫中隨機選取50例在放射治療加速器TrueBeam(Varian Medical Systems,Inc.,美國) 上執行的鼻咽癌VMAT計劃,每例計劃都由順時針和逆時針兩個全弧組成,并在治療計劃系統Eclipse 13.6(Varian Medical Systems,Inc.,美國)中使用光子優化算法(photon optimizer,PO)進行優化,各向異性分析算法(anisotropic analytical algorithm,AAA)進行劑量計算,計算網格為2.5 mm。
本文方法研究流程如圖1所示,首先,通過自編程序對10例VMAT計劃進行編輯引入MLC開合誤差,產生80例含MLC開合誤差的計劃。然后使用驗證設備對這些計劃進行驗證及γ分析,通過梯度分析研究了不同測量方式(兩野合成野、單野)對誤差的敏感性,并基于ROC方法得到識別誤差的最佳通過率閾值。其次,對額外40例不含誤差的計劃進行驗證及γ分析,對驗證結果使用SPC方法計算了通過率容差限值。最終,在不同測量方式下,將SPC容差限值、TG-218號報告建議的通用容差限值對誤差的識別能力與ROC最佳閾值作為限值時對誤差的識別能力進行比較。

1.2 MLC誤差模擬
模擬MLC誤差的計劃由自主編程的圖形界面程序生成。該程序通過計算機程序設計語言Python(Python Software Foundation,美國)編程實現,具備對以醫學數字成像和通信(digital imaging and communications in medicine,DICOM )格式存儲的計劃文件進行交互式修改的功能。在該程序中打開一個放療計劃,通過界面設定引入誤差的具體參數并應用后,程序將按要求修改所打開計劃的每一個控制點上的MLC葉片位置并在界面上可視化顯示,確認無誤后可將修改后的計劃保存為一個新的計劃文件,將此文件導回Eclipse 13.6(Varian Medical Systems,Inc.,美國)進行劑量計算后即可得到可執行的含誤差計劃。如圖1所示,將10例VMAT計劃的計劃文件導入到編寫的程序中,對每例計劃分別模擬了±0.4 mm、±1.2 mm、±2 mm、±3 mm的MLC開合誤差(MLC系統性地向外打開或向內閉合造成開口擴大或縮小的數值,誤差對稱地平分到兩側葉片,閉合記為負,打開記為正),共獲得80例已知MLC開合誤差的放療計劃。
1.3 計劃驗證
本研究所使用的計劃驗證設備為ArcCHECK(Sun Nuclear Corp.,美國),該設備是用于VMAT計劃驗證的常用設備之一[21]。其外觀呈圓柱形,由水等效材料制成,在距表面2.9 cm深度、直徑和長度均為21 cm的圓柱面上共分布有1 386個半導體探測器。測量前,對50例計劃分別計算兩個單野(順時針弧和逆時針弧)及其合成野在該設備中的劑量分布,將計算的分布導入劑量分布比較軟件SNC Patient 6.2.3(Sun Nuclear Corp.,美國)中與隨后的測量分布進行比較。
驗證設備進行劑量和陣列校準后,對50例不含誤差的計劃及80例引入MLC誤差的計劃,分別測量每個計劃的兩個單野用于單野的劑量分布比較,然后將兩個單野合成一個分布用于合成野的劑量分布比較。
對所有測量分布及相應不含誤差的計算分布,在SNC Patient 6.2.3(Sun Nuclear Corp.,美國)軟件中執行劑量差異3%、距離差異2 mm、10%劑量閾值、絕對劑量全局歸一條件下的γ分析。使用統計分析軟件SPSS 22.0(International Business Machines corp.,美國)對合成野及單野間的γ通過率進行弗里德曼(Friedman)檢驗,P<0.05代表差異具有統計學意義。
1.4 對MLC開合誤差的敏感性分析
對10例原始計劃和相應80例引入MLC誤差的計劃,使用梯度分析方法研究不同測量方式下γ通過率隨MLC開合誤差的變化情況。梯度值由γ通過率與MLC誤差間的線性擬合的斜率得到,代表每單位誤差引起的γ通過率的變化值,值越大則對該類誤差越敏感。
1.5 基于ROC方法的最佳閾值
ROC是臨床研究中用于反映某指標判別陰陽性能力的常用研究方法之一。通過對某指標(如γ通過率)的結果設置不同的閾值,從而可得到不同的敏感性(真陽性率)和特異性(真陰性率),再以敏感性為縱坐標,1-特異性(假陽性率)為橫坐標繪制成線即可得到ROC曲線,該曲線下面積(area under curve,AUC)越大,則該指標用于區分陰陽性的準確性就越高[9]。本研究以10例原始計劃的通過率表征陰性計劃,80例引入誤差計劃的通過率表征陽性計劃,在作圖軟件GraphPad Prism 8.2.1(GraphPad Software,LLC.,美國)中繪制γ通過率指標的ROC曲線,得到AUC值及區分陰陽性計劃的最佳閾值。
1.6 基于SPC方法的限值計算
根據SPC方法計算容差限值和干預限值的過程如式(1)、式(2)所示:
![]() |
![]() |
式中,n為所測量的計劃總例數,建議一般應至少取20例。xi為第i例計劃的γ通過率, 為所有計劃γ通過率的平均值,β是度量流程能力和平衡假設檢驗中兩種類型錯誤的兩種因子的組合,是一種可以通過研究加以改進的常數值,推薦取值為6[22]。σ2為方差,T為流程目標值,在γ通過率場景中,T取100%。有研究指出,剔除失控點后再計算限值是比較合理的做法,因此本研究首先使用40例計劃的通過率計算限值,若計算過程中遇到失控點則將該點剔除后重新進行計算直至所有點都在限值以內[23]。
1.7 不同測量方式及通過率限值對誤差的識別能力
在不同測量方式下,將TG-218號報告建議的通用容差限值、SPC方法得到的容差限值對MLC開合誤差的識別情況與ROC方法得到的最佳閾值對誤差的識別情況進行比較。其中,單野使用兩野聯合判斷,即任一射野不通過,則認為該計劃不能通過驗證。
2 結果
10例原始計劃及相應80例含誤差計劃在不同測量方式下的γ通過率如表1所示。從通過率數值上看,當MLC開合誤差小于±1.2 mm時,合成野與單野的通過率差異不大,順時針弧略小于合成野及逆時針弧。但當誤差大于±1.2 mm時,合成野的通過率開始迅速下降且波動幅度也隨之增大。但三者的差異僅在較小誤差和極大誤差時才具有統計學意義(開合誤差為0、–0.4、±3 mm時,P<0.05)。

通過率隨MLC誤差變化的梯度分析如圖2所示。隨著MLC開合誤差的增大,γ通過率的下降梯度也由緩變大,波動也隨之增大。總體來看,對于合成野、順時針弧及逆時針弧,γ通過率隨每毫米MLC打開誤差下降的梯度分別為10.61%、7.62%及6.66%,隨每毫米MLC閉合誤差下降的梯度分別為9.75%、7.36%及6.37%。合成野γ通過率的整體下降梯度大于兩野單獨分析,而順時針弧又大于逆時針弧。打開誤差引起的梯度變化略大于閉合誤差。

γ通過率指標對MLC開合誤差識別能力的ROC曲線分析結果如圖3所示。由圖3可知,兩野合成的AUC值略大于順時針弧,逆時針弧最小,相應的最佳閾值分別為99.35%、97.95%和98.25%。

40例計劃各自剔除1例、5例、6例失控點后合成野、順時針弧及逆時針弧的γ通過率情況及根據式(1)、式(2)所計算的限值如表2所示。使用SPC方法計算所得限值均高于TG-218號報告所建議的通用限值。兩野合成的通過率及相關限值均高于兩野單獨分析的結果,三者間的差異具有統計學意義(P<0.01)。

不同測量方式及γ通過率限值對10例原始計劃及引入MLC開合誤差的計劃的識別情況如表3所示。其中,將10例原始計劃定義為陰性,理論陰性率(陰性計劃占比)為100%,對應80例引入誤差的計劃定義為陽性,其理論陰性率為0%。不同γ判斷標準下的陰性率指使用該標準將計劃識別成陰性計劃(通過驗證)的比例。由表3可知,除ROC最佳閾值和SPC容差限值下的兩單野聯合判斷外,其余方法均能正確判斷陰性計劃。所有方法均能識別大于±3 mm的誤差,ROC方法和SPC方法對±2 mm誤差的識別率(1-陰性率)為100%,而通用容差限值只能部分識別。對小于±1.2 mm的誤差,所有γ判斷標準均不能完全識別,其中合成野的SPC方法對±1.2 mm誤差的識別率與ROC方法相同,–1.2 mm時為90%,1.2 mm時為80%,而合成野通用容差限值不能識別–1.2 mm的誤差且僅能識別20%的1.2 mm誤差。不同測量方式使用ROC方法均能識別部分±0.4 mm的誤差,合成野SPC方法不能識別–0.4 mm誤差,能識別部分0.4 mm誤差,兩單野聯合對±0.4 mm的誤差均能識別部分,而不同測量方式使用通用容差限值均不能識別±0.4 mm的誤差。整體來看,兩野聯合判斷對誤差的識別能力略高于合成野獨立判斷,但當使用ROC和SPC方法時,兩野聯合判斷有一定的假陽性率。

3 討論
調強放療計劃驗證有多種測量形式,一項針對國內調強放療計劃驗證的調查顯示,參與調查的機構中使用歸零野(機架置于0°)合成測量的占64%,歸零野逐個單獨測量的占47.1%,按射野實際角度合成測量的占27.3%[24]。本研究對計劃驗證設備在臨床使用中常見的兩種測量方式進行了比較。對MLC開合誤差的敏感性方面,隨著誤差的不斷增大,梯度分析表明兩野合成的通過率下降梯度要大于兩野單獨測量,而順時針弧又大于逆時針弧,說明合成野對這類誤差更為敏感。但由于本研究設計的誤差是MLC的系統性偏差,合成野可能具有更大的誤差累積效應,而MLC在實際運動過程中主要是隨機誤差,誤差可能累積,也可能正負抵消,因此針對其他錯誤類型合成野并非一定更為敏感。SPC方法的計算結果表明,合成野γ通過率的均值、容差限值及干預限值均高于兩野單獨測量,而波動低于兩野單獨測量。Alharthi等[6]對肺癌立體定向體部放療 VMAT計劃進行驗證得到的結果也顯示,各野單獨測量的通過率要低于整體合成測量,但兩者對錯誤檢測的靈敏級別是類似的,比如都不能檢測到+1°和-2°的小機頭誤差及±1 mm的MLC平移誤差。在本研究中,對單野采用了兩野聯合判斷的形式來識別誤差,整體來看兩野聯合判斷對誤差的識別能力略高于使用合成野獨立判斷,但當γ判斷標準使用ROC和SPC方法得到的閾值時,兩野聯合判斷有一定的假陽性率,誤將陰性計劃識別為陽性計劃。由于按射野實際角度合成測量更加接近治療時的情況,產生的劑量分布也更接近患者的受照射情況,并且單個計劃只需分析一個測量數據,質控效率更高,因此TG-218號報告建議在驗證設備允許的情況下可優先采用射野實際角度合成測量的方式,當此方式失敗時,單野的測量分析是有價值的[10]。
本研究使用SPC方法計算的容差限值和干預限值均高于TG-218號報告建議的通用限值,說明整個計劃驗證過程表現良好,流程可控。郭偉等[18]使用SPC方法對調強放療計劃驗證γ通過率限值的研究表明,針對不同部位腫瘤、不同加速器、不同驗證設備等組合得到的限值有所差異,其中隨機選取的20例頭頸部調強放療計劃在劑量差異3%、距離差異2 mm條件下合成野的平均γ通過率為(98.07±0.95)%,容差限值為95.14%,干預限值為93.55%。肖青等[19]選取25例受控頭頸部VMAT計劃用于基于SPC方法的γ通過率限值計算,得到劑量差異3%、距離差異2 mm條件下的平均γ通過率為(97.73±1.02)%,容差限值為94.68%,干預限值為92.54%。而本研究使用SPC方法得到的合成野平均γ通過率為(99.74±0.30)%,容差限值為98.98%,干預限值為98.81%。這些限值均是基于當地的計劃驗證情況計算所得,不同研究之間結果的差異可能來源于各機構質控流程中不同因素或因素間的組合,例如不同計劃系統、不同加速器、不同病種、不同計劃類型,甚至不同質控人員都可能帶來結果的差異[10]。其中,測量前儀器的校準可能是一個重要的差異來源,本研究中得到的γ通過率較高可能與設備校準后隨即進行集中測量有關,有對其他驗證設備的研究表明設備校準后得到的通過率要明顯高于校準前的通過率,因此SPC方法在臨床實際應用中建議,可根據本機構對驗證設備的校準頻率,盡量多使用幾個校準周期的數據以反映本機構的實際情況[25]。此外,SPC方法理論上需要基于正態分布數據進行計算,但γ通過率大多數情況下并非呈正態分布,因此有學者指出可對這些數據做適當的處理后再進行SPC分析[26]。
Tattenberg等[27]使用ROC方法研究了6 MV非均整模式下腦部VMAT計劃誤差的識別情況,發現在劑量差異2%、距離差異1 mm或2 mm,以及劑量差異4%、距離差異1 mm的γ分析條件下對大于1 mm的MLC隨機誤差具有良好的識別能力(AUC>0.8),對應的最佳閾值分別為83.6%、97.7%及94.1%。Woon等[28]使用ROC方法得到劑量差異3%、距離差異2 mm的γ分析條件下識別鼻咽癌VMAT計劃0.25~1.00 mm的MLC打開誤差的AUC值為0.701。Pogson等[29]在三個機構參與的多中心研究中對相同的10例鼻咽癌病例進行VMAT計劃設計并引入MLC系統誤差,計劃驗證后通過ROC分析發現盡管使用相同的病例、相同的驗證設備、相同的γ分析條件,不同機構得到的AUC值卻不盡相同,這可能與不同機構間的治療計劃差異、加速器差異等多種因素有關。本研究使用ROC方法對MLC開合誤差進行識別時,不同測量方式的AUC值均大于0.8,且兩野合成略大于單野測量。SPC方法得到的容差限值與ROC方法得到的最佳閾值較為接近,當使用不同方法得到的限值進行誤差識別時,無論哪種測量方式,ROC最佳閾值及SPC容差限值對誤差的判別能力均優于TG-218號報告建議的通用容差限值。當使用兩單野進行聯合判斷時,SPC容差限值與ROC最佳閾值對誤差的判別能力相當且都有一定的假陽性率。使用合成野進行判斷時,SPC容差限值對±0.4 mm小誤差的識別能力差于ROC最佳閾值。SPC與ROC兩種方法都能識別全部±2 mm的開合誤差,但兩者均不能完全地識別所有小于±1.2 mm的誤差。而當使用通用容差限值時,部分±2 mm的誤差也不能識別。葉淑敏等[30]研究了MLC系統誤差對鼻咽癌VMAT計劃劑量的影響,結果顯示±1 mm的系統誤差給靶區一般等效均勻劑量(general equivalent uniform dose,gEUD)帶來的改變在4%左右,而對正常組織的改變在5%~7%之間。這表明通用容差限值在某些情況下可能對一些具有較大臨床意義的錯誤并不敏感,給整個質控流程帶來風險。本研究在使用ROC方法時,將所有含誤差的計劃均視作陽性,為盡量識別±0.4 mm 的誤差,ROC方法得到的通過率最佳閾值較高,臨床使用中也可根據不同誤差帶來的患者體內劑量分布差異大小來劃分陰陽性計劃,但這又涉及到劑量分布差異的閾值問題。ROC方法雖然理論上可能得到更優的通過率限值,但其應用的前提是需要事先準備一批已知陰陽性的計劃,面對臨床中諸多的誤差來源,這種方法可能很難實際運用。而SPC方法無需如此苛刻的前提條件且得到的限值是針對每個機構特定的流程而定制的,運用得當可將流程中的綜合誤差控制在可接受的范圍內,因此建議各機構可根據自身情況制定與本部門流程相適宜的限值,不斷提高整個流程的受控水平。
綜上所述,本研究探究了計劃驗證設備驗證鼻咽癌VMAT計劃的γ通過率限值及面對MLC開合誤差時的敏感性。研究表明本機構的計劃驗證流程可控,表現良好。單野聯合判斷對誤差的識別能力略高于合成野獨立判斷,但當使用ROC和SPC方法時,單野聯合判斷有一定的假陽性率,結合TG-218號報告的建議,臨床使用時可優先選擇實際射野角度合成測量,單野測量可用于驗證不通過時的進一步分析。通用容差限值可能不能識別某些具有較大臨床意義的錯誤,綜合考慮精確性、易用性等因素,SPC方法是一種有助于發現流程中錯誤,利于質控流程規范化、標準化、提高質控水平的有效方法。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:胡金有負責研究的具體執行及文章撰寫,鄒煉、吳章文參與研究決策,提供研究方法指導,數據分析指導及論文審閱修訂,其他人員參與研究工作。
0 引言
隨著放射治療技術的發展,容積旋轉調強放療(volumetric modulated arc therapy,VMAT)已逐漸成為首選的放療技術之一。相較于固定野調強放療,VMAT在提高治療效率的同時可獲得更加適形的靶區劑量分布和更好的正常組織保護,但其涉及的可調制參數更加復雜多樣,大機架旋轉的同時,多葉準直器(multi-leaf collimator,MLC)位置和運動速度、加速器出束劑量率等多種參數都在不斷變化,因此對VMAT計劃的質控是其臨床使用中的重點和難點之一[1-2]。患者治療計劃的驗證是放療質控中的重要環節,其目的是通過驗證設備來比對加速器實際投照劑量分布和計劃劑量分布間的一致性,目前常用的比對方法是基于劑量和距離一致性的γ分析法[3]。然而計劃驗證的測量方式及其γ分析標準在各機構間并未形成統一的規范。對測量方式而言,以往的一些研究表明,逐個射野單獨測量可能比各野合成測量更加嚴格,因為后者可能會掩蓋一些錯誤[4-6];但這些研究大多是指射野角度歸零后的驗證情況,對實際射野角度合成測量與實際射野角度單獨測量間的比對研究較少。γ分析標準方面,美國醫學物理師協會(The American Association of Physicists in Medicine,AAPM)第119號工作組報告(task group No.119,TG-119)中采用Palta等[7]提出的方法得到在劑量差異3%、距離差異3 mm條件下合成野的γ通過率限值為88%,單野的限值為93%[8]。Carlone等[9]使用受試者工作特征曲線(receiver operating characteristic curve,ROC)研究了計劃驗證設備MapCHECK 2(Sun Nuclear Corp.,美國)在不同γ分析參數下驗證前列腺調強放療計劃的γ通過率限值。不同研究使用的分析條件、驗證設備以及得到的γ通過率限值往往并不相同。為促進計劃驗證過程的規范化,AAPM第218號工作組報告(task group No.218,TG-218)建議,在測量設備允許的情況下,采用實際射野角度合成測量,并使用容差限值和干預限值對計劃驗證過程進行控制,推薦采用劑量差異3%、距離差異2 mm、劑量閾值設置為10%、絕對劑量全局歸一的γ分析條件,并建議此條件下γ通過率的通用容差限值為95%,干預限值為90%;若通過率高于容差限值則表示計劃的實際執行與計劃設計之間高度吻合,計劃可通過驗證;若低于干預限值則表示計劃在實際執行過程中可能出現對患者治療產生負面影響的誤差,計劃不能通過驗證[10];若通過率處于干預限值和容差限值之間,則需經物理師審查后決定計劃是否可通過驗證。該報告還介紹了基于統計過程控制(statistical process control,SPC)計算各機構個性化γ通過率容差限值和干預限值的方法[10-13]。
針對計劃驗證設備的研究較多,但這些研究主要集中在設備自身物理特性及其與其他設備間的比較方面[14-17]。雖有相關研究使用SPC方法對計劃驗證的γ通過率限值進行了報道,但缺乏使用該限值對含誤差計劃的實際識別能力測試,也缺乏使用不同測量方式、不同通過率限值時的誤差識別能力比較[18-20]。本研究對鼻咽癌VMAT計劃模擬了具有較大臨床影響的MLC開合誤差,用以檢測不同測量方式對這種較大臨床誤差的敏感性,并將TG-218號報告推薦的通用容差限值、SPC方法計算所得的容差限值對誤差的識別能力與ROC方法所得的最佳閾值對誤差的識別能力進行比較,探討不同測量方式下使用不同通過率限值對該類誤差的識別能力,以期加深對此類設備和不同通過率限值的理解和認識,為其臨床使用提供參考。
1 材料與方法
1.1 計劃選取與研究流程
本研究所有原始計劃均來自四川省人民醫院腫瘤放射治療中心,研究中的計劃用于驅動加速器按計劃對驗證設備進行照射,全過程不涉及任何人體或動物,不涉及對任何人或動物的數據采集,不會對任何人或動物的權益造成損害。在本機構計劃數據庫中隨機選取50例在放射治療加速器TrueBeam(Varian Medical Systems,Inc.,美國) 上執行的鼻咽癌VMAT計劃,每例計劃都由順時針和逆時針兩個全弧組成,并在治療計劃系統Eclipse 13.6(Varian Medical Systems,Inc.,美國)中使用光子優化算法(photon optimizer,PO)進行優化,各向異性分析算法(anisotropic analytical algorithm,AAA)進行劑量計算,計算網格為2.5 mm。
本文方法研究流程如圖1所示,首先,通過自編程序對10例VMAT計劃進行編輯引入MLC開合誤差,產生80例含MLC開合誤差的計劃。然后使用驗證設備對這些計劃進行驗證及γ分析,通過梯度分析研究了不同測量方式(兩野合成野、單野)對誤差的敏感性,并基于ROC方法得到識別誤差的最佳通過率閾值。其次,對額外40例不含誤差的計劃進行驗證及γ分析,對驗證結果使用SPC方法計算了通過率容差限值。最終,在不同測量方式下,將SPC容差限值、TG-218號報告建議的通用容差限值對誤差的識別能力與ROC最佳閾值作為限值時對誤差的識別能力進行比較。

1.2 MLC誤差模擬
模擬MLC誤差的計劃由自主編程的圖形界面程序生成。該程序通過計算機程序設計語言Python(Python Software Foundation,美國)編程實現,具備對以醫學數字成像和通信(digital imaging and communications in medicine,DICOM )格式存儲的計劃文件進行交互式修改的功能。在該程序中打開一個放療計劃,通過界面設定引入誤差的具體參數并應用后,程序將按要求修改所打開計劃的每一個控制點上的MLC葉片位置并在界面上可視化顯示,確認無誤后可將修改后的計劃保存為一個新的計劃文件,將此文件導回Eclipse 13.6(Varian Medical Systems,Inc.,美國)進行劑量計算后即可得到可執行的含誤差計劃。如圖1所示,將10例VMAT計劃的計劃文件導入到編寫的程序中,對每例計劃分別模擬了±0.4 mm、±1.2 mm、±2 mm、±3 mm的MLC開合誤差(MLC系統性地向外打開或向內閉合造成開口擴大或縮小的數值,誤差對稱地平分到兩側葉片,閉合記為負,打開記為正),共獲得80例已知MLC開合誤差的放療計劃。
1.3 計劃驗證
本研究所使用的計劃驗證設備為ArcCHECK(Sun Nuclear Corp.,美國),該設備是用于VMAT計劃驗證的常用設備之一[21]。其外觀呈圓柱形,由水等效材料制成,在距表面2.9 cm深度、直徑和長度均為21 cm的圓柱面上共分布有1 386個半導體探測器。測量前,對50例計劃分別計算兩個單野(順時針弧和逆時針弧)及其合成野在該設備中的劑量分布,將計算的分布導入劑量分布比較軟件SNC Patient 6.2.3(Sun Nuclear Corp.,美國)中與隨后的測量分布進行比較。
驗證設備進行劑量和陣列校準后,對50例不含誤差的計劃及80例引入MLC誤差的計劃,分別測量每個計劃的兩個單野用于單野的劑量分布比較,然后將兩個單野合成一個分布用于合成野的劑量分布比較。
對所有測量分布及相應不含誤差的計算分布,在SNC Patient 6.2.3(Sun Nuclear Corp.,美國)軟件中執行劑量差異3%、距離差異2 mm、10%劑量閾值、絕對劑量全局歸一條件下的γ分析。使用統計分析軟件SPSS 22.0(International Business Machines corp.,美國)對合成野及單野間的γ通過率進行弗里德曼(Friedman)檢驗,P<0.05代表差異具有統計學意義。
1.4 對MLC開合誤差的敏感性分析
對10例原始計劃和相應80例引入MLC誤差的計劃,使用梯度分析方法研究不同測量方式下γ通過率隨MLC開合誤差的變化情況。梯度值由γ通過率與MLC誤差間的線性擬合的斜率得到,代表每單位誤差引起的γ通過率的變化值,值越大則對該類誤差越敏感。
1.5 基于ROC方法的最佳閾值
ROC是臨床研究中用于反映某指標判別陰陽性能力的常用研究方法之一。通過對某指標(如γ通過率)的結果設置不同的閾值,從而可得到不同的敏感性(真陽性率)和特異性(真陰性率),再以敏感性為縱坐標,1-特異性(假陽性率)為橫坐標繪制成線即可得到ROC曲線,該曲線下面積(area under curve,AUC)越大,則該指標用于區分陰陽性的準確性就越高[9]。本研究以10例原始計劃的通過率表征陰性計劃,80例引入誤差計劃的通過率表征陽性計劃,在作圖軟件GraphPad Prism 8.2.1(GraphPad Software,LLC.,美國)中繪制γ通過率指標的ROC曲線,得到AUC值及區分陰陽性計劃的最佳閾值。
1.6 基于SPC方法的限值計算
根據SPC方法計算容差限值和干預限值的過程如式(1)、式(2)所示:
![]() |
![]() |
式中,n為所測量的計劃總例數,建議一般應至少取20例。xi為第i例計劃的γ通過率, 為所有計劃γ通過率的平均值,β是度量流程能力和平衡假設檢驗中兩種類型錯誤的兩種因子的組合,是一種可以通過研究加以改進的常數值,推薦取值為6[22]。σ2為方差,T為流程目標值,在γ通過率場景中,T取100%。有研究指出,剔除失控點后再計算限值是比較合理的做法,因此本研究首先使用40例計劃的通過率計算限值,若計算過程中遇到失控點則將該點剔除后重新進行計算直至所有點都在限值以內[23]。
1.7 不同測量方式及通過率限值對誤差的識別能力
在不同測量方式下,將TG-218號報告建議的通用容差限值、SPC方法得到的容差限值對MLC開合誤差的識別情況與ROC方法得到的最佳閾值對誤差的識別情況進行比較。其中,單野使用兩野聯合判斷,即任一射野不通過,則認為該計劃不能通過驗證。
2 結果
10例原始計劃及相應80例含誤差計劃在不同測量方式下的γ通過率如表1所示。從通過率數值上看,當MLC開合誤差小于±1.2 mm時,合成野與單野的通過率差異不大,順時針弧略小于合成野及逆時針弧。但當誤差大于±1.2 mm時,合成野的通過率開始迅速下降且波動幅度也隨之增大。但三者的差異僅在較小誤差和極大誤差時才具有統計學意義(開合誤差為0、–0.4、±3 mm時,P<0.05)。

通過率隨MLC誤差變化的梯度分析如圖2所示。隨著MLC開合誤差的增大,γ通過率的下降梯度也由緩變大,波動也隨之增大。總體來看,對于合成野、順時針弧及逆時針弧,γ通過率隨每毫米MLC打開誤差下降的梯度分別為10.61%、7.62%及6.66%,隨每毫米MLC閉合誤差下降的梯度分別為9.75%、7.36%及6.37%。合成野γ通過率的整體下降梯度大于兩野單獨分析,而順時針弧又大于逆時針弧。打開誤差引起的梯度變化略大于閉合誤差。

γ通過率指標對MLC開合誤差識別能力的ROC曲線分析結果如圖3所示。由圖3可知,兩野合成的AUC值略大于順時針弧,逆時針弧最小,相應的最佳閾值分別為99.35%、97.95%和98.25%。

40例計劃各自剔除1例、5例、6例失控點后合成野、順時針弧及逆時針弧的γ通過率情況及根據式(1)、式(2)所計算的限值如表2所示。使用SPC方法計算所得限值均高于TG-218號報告所建議的通用限值。兩野合成的通過率及相關限值均高于兩野單獨分析的結果,三者間的差異具有統計學意義(P<0.01)。

不同測量方式及γ通過率限值對10例原始計劃及引入MLC開合誤差的計劃的識別情況如表3所示。其中,將10例原始計劃定義為陰性,理論陰性率(陰性計劃占比)為100%,對應80例引入誤差的計劃定義為陽性,其理論陰性率為0%。不同γ判斷標準下的陰性率指使用該標準將計劃識別成陰性計劃(通過驗證)的比例。由表3可知,除ROC最佳閾值和SPC容差限值下的兩單野聯合判斷外,其余方法均能正確判斷陰性計劃。所有方法均能識別大于±3 mm的誤差,ROC方法和SPC方法對±2 mm誤差的識別率(1-陰性率)為100%,而通用容差限值只能部分識別。對小于±1.2 mm的誤差,所有γ判斷標準均不能完全識別,其中合成野的SPC方法對±1.2 mm誤差的識別率與ROC方法相同,–1.2 mm時為90%,1.2 mm時為80%,而合成野通用容差限值不能識別–1.2 mm的誤差且僅能識別20%的1.2 mm誤差。不同測量方式使用ROC方法均能識別部分±0.4 mm的誤差,合成野SPC方法不能識別–0.4 mm誤差,能識別部分0.4 mm誤差,兩單野聯合對±0.4 mm的誤差均能識別部分,而不同測量方式使用通用容差限值均不能識別±0.4 mm的誤差。整體來看,兩野聯合判斷對誤差的識別能力略高于合成野獨立判斷,但當使用ROC和SPC方法時,兩野聯合判斷有一定的假陽性率。

3 討論
調強放療計劃驗證有多種測量形式,一項針對國內調強放療計劃驗證的調查顯示,參與調查的機構中使用歸零野(機架置于0°)合成測量的占64%,歸零野逐個單獨測量的占47.1%,按射野實際角度合成測量的占27.3%[24]。本研究對計劃驗證設備在臨床使用中常見的兩種測量方式進行了比較。對MLC開合誤差的敏感性方面,隨著誤差的不斷增大,梯度分析表明兩野合成的通過率下降梯度要大于兩野單獨測量,而順時針弧又大于逆時針弧,說明合成野對這類誤差更為敏感。但由于本研究設計的誤差是MLC的系統性偏差,合成野可能具有更大的誤差累積效應,而MLC在實際運動過程中主要是隨機誤差,誤差可能累積,也可能正負抵消,因此針對其他錯誤類型合成野并非一定更為敏感。SPC方法的計算結果表明,合成野γ通過率的均值、容差限值及干預限值均高于兩野單獨測量,而波動低于兩野單獨測量。Alharthi等[6]對肺癌立體定向體部放療 VMAT計劃進行驗證得到的結果也顯示,各野單獨測量的通過率要低于整體合成測量,但兩者對錯誤檢測的靈敏級別是類似的,比如都不能檢測到+1°和-2°的小機頭誤差及±1 mm的MLC平移誤差。在本研究中,對單野采用了兩野聯合判斷的形式來識別誤差,整體來看兩野聯合判斷對誤差的識別能力略高于使用合成野獨立判斷,但當γ判斷標準使用ROC和SPC方法得到的閾值時,兩野聯合判斷有一定的假陽性率,誤將陰性計劃識別為陽性計劃。由于按射野實際角度合成測量更加接近治療時的情況,產生的劑量分布也更接近患者的受照射情況,并且單個計劃只需分析一個測量數據,質控效率更高,因此TG-218號報告建議在驗證設備允許的情況下可優先采用射野實際角度合成測量的方式,當此方式失敗時,單野的測量分析是有價值的[10]。
本研究使用SPC方法計算的容差限值和干預限值均高于TG-218號報告建議的通用限值,說明整個計劃驗證過程表現良好,流程可控。郭偉等[18]使用SPC方法對調強放療計劃驗證γ通過率限值的研究表明,針對不同部位腫瘤、不同加速器、不同驗證設備等組合得到的限值有所差異,其中隨機選取的20例頭頸部調強放療計劃在劑量差異3%、距離差異2 mm條件下合成野的平均γ通過率為(98.07±0.95)%,容差限值為95.14%,干預限值為93.55%。肖青等[19]選取25例受控頭頸部VMAT計劃用于基于SPC方法的γ通過率限值計算,得到劑量差異3%、距離差異2 mm條件下的平均γ通過率為(97.73±1.02)%,容差限值為94.68%,干預限值為92.54%。而本研究使用SPC方法得到的合成野平均γ通過率為(99.74±0.30)%,容差限值為98.98%,干預限值為98.81%。這些限值均是基于當地的計劃驗證情況計算所得,不同研究之間結果的差異可能來源于各機構質控流程中不同因素或因素間的組合,例如不同計劃系統、不同加速器、不同病種、不同計劃類型,甚至不同質控人員都可能帶來結果的差異[10]。其中,測量前儀器的校準可能是一個重要的差異來源,本研究中得到的γ通過率較高可能與設備校準后隨即進行集中測量有關,有對其他驗證設備的研究表明設備校準后得到的通過率要明顯高于校準前的通過率,因此SPC方法在臨床實際應用中建議,可根據本機構對驗證設備的校準頻率,盡量多使用幾個校準周期的數據以反映本機構的實際情況[25]。此外,SPC方法理論上需要基于正態分布數據進行計算,但γ通過率大多數情況下并非呈正態分布,因此有學者指出可對這些數據做適當的處理后再進行SPC分析[26]。
Tattenberg等[27]使用ROC方法研究了6 MV非均整模式下腦部VMAT計劃誤差的識別情況,發現在劑量差異2%、距離差異1 mm或2 mm,以及劑量差異4%、距離差異1 mm的γ分析條件下對大于1 mm的MLC隨機誤差具有良好的識別能力(AUC>0.8),對應的最佳閾值分別為83.6%、97.7%及94.1%。Woon等[28]使用ROC方法得到劑量差異3%、距離差異2 mm的γ分析條件下識別鼻咽癌VMAT計劃0.25~1.00 mm的MLC打開誤差的AUC值為0.701。Pogson等[29]在三個機構參與的多中心研究中對相同的10例鼻咽癌病例進行VMAT計劃設計并引入MLC系統誤差,計劃驗證后通過ROC分析發現盡管使用相同的病例、相同的驗證設備、相同的γ分析條件,不同機構得到的AUC值卻不盡相同,這可能與不同機構間的治療計劃差異、加速器差異等多種因素有關。本研究使用ROC方法對MLC開合誤差進行識別時,不同測量方式的AUC值均大于0.8,且兩野合成略大于單野測量。SPC方法得到的容差限值與ROC方法得到的最佳閾值較為接近,當使用不同方法得到的限值進行誤差識別時,無論哪種測量方式,ROC最佳閾值及SPC容差限值對誤差的判別能力均優于TG-218號報告建議的通用容差限值。當使用兩單野進行聯合判斷時,SPC容差限值與ROC最佳閾值對誤差的判別能力相當且都有一定的假陽性率。使用合成野進行判斷時,SPC容差限值對±0.4 mm小誤差的識別能力差于ROC最佳閾值。SPC與ROC兩種方法都能識別全部±2 mm的開合誤差,但兩者均不能完全地識別所有小于±1.2 mm的誤差。而當使用通用容差限值時,部分±2 mm的誤差也不能識別。葉淑敏等[30]研究了MLC系統誤差對鼻咽癌VMAT計劃劑量的影響,結果顯示±1 mm的系統誤差給靶區一般等效均勻劑量(general equivalent uniform dose,gEUD)帶來的改變在4%左右,而對正常組織的改變在5%~7%之間。這表明通用容差限值在某些情況下可能對一些具有較大臨床意義的錯誤并不敏感,給整個質控流程帶來風險。本研究在使用ROC方法時,將所有含誤差的計劃均視作陽性,為盡量識別±0.4 mm 的誤差,ROC方法得到的通過率最佳閾值較高,臨床使用中也可根據不同誤差帶來的患者體內劑量分布差異大小來劃分陰陽性計劃,但這又涉及到劑量分布差異的閾值問題。ROC方法雖然理論上可能得到更優的通過率限值,但其應用的前提是需要事先準備一批已知陰陽性的計劃,面對臨床中諸多的誤差來源,這種方法可能很難實際運用。而SPC方法無需如此苛刻的前提條件且得到的限值是針對每個機構特定的流程而定制的,運用得當可將流程中的綜合誤差控制在可接受的范圍內,因此建議各機構可根據自身情況制定與本部門流程相適宜的限值,不斷提高整個流程的受控水平。
綜上所述,本研究探究了計劃驗證設備驗證鼻咽癌VMAT計劃的γ通過率限值及面對MLC開合誤差時的敏感性。研究表明本機構的計劃驗證流程可控,表現良好。單野聯合判斷對誤差的識別能力略高于合成野獨立判斷,但當使用ROC和SPC方法時,單野聯合判斷有一定的假陽性率,結合TG-218號報告的建議,臨床使用時可優先選擇實際射野角度合成測量,單野測量可用于驗證不通過時的進一步分析。通用容差限值可能不能識別某些具有較大臨床意義的錯誤,綜合考慮精確性、易用性等因素,SPC方法是一種有助于發現流程中錯誤,利于質控流程規范化、標準化、提高質控水平的有效方法。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:胡金有負責研究的具體執行及文章撰寫,鄒煉、吳章文參與研究決策,提供研究方法指導,數據分析指導及論文審閱修訂,其他人員參與研究工作。