引用本文: 王敏, 宋彬, 黃子星, 陳婕, 胡富碧. 大數據時代的精準影像醫學:放射組學. 中國普外基礎與臨床雜志, 2016, 23(6): 752-755. doi: 10.7507/1007-9424.20160198 復制
2015年美國總統奧巴馬在國情咨文中提到“精準醫療計劃”,拉開了全球精準醫療的帷幕。精準醫療是以精準診斷為基礎的,要建立精準診斷體系,精準影像醫學必不可少[1-3]。傳統的影像醫學模式是基于形態學診斷的,不能提供精準醫療所需要的分子與基因水平的生物學信息,不能提供個性化生物和靶向治療所需要的信息,因此顯然無法達到精準影像醫學的標準,這種傳統的影像醫學診斷模式亟待改變[4]。近年來在影像醫學領域嶄露頭角的放射組學(radiomics),它應用大量的自動化數據特征化算法,將感興趣區域(region of interest,ROI)的影像數據轉化為具有高分辨率的、可發掘的特征空間數據,其有望成為精準影像醫學的重要基石。筆者現就放射組學的發展過程和臨床應用做一綜述。
1 放射組學的起源與發展
隨著影像采集設備硬件水平的提升和采集技術的發展,影像設備所生成的圖像數據量越來越大,過去對圖像數據的處理與使用方式顯然難以充分挖掘圖像的大數據信息。因此放射組學應運而生,它將傳統的影像圖像轉換為可發掘的數據信息,并對之進行高通量(high throughput)定量分析。
高通量原本是指在基因測序中一次對幾十萬到幾百萬條DNA分子進行序列測定[5],而放射組學中提取的特征數據與上述DNA分子有著相似的數據量龐大的特點,因此其與高通量測序在信息量的本質上是相似的。組學(-omics)是英文后綴,意為一些種類個體的系統集合。2003年Baumann等[6]首次提出放射基因組學(radiogenomics)的概念,其主要研究腫瘤組織及瘤周正常組織對放射治療的敏感性,及其同遺傳基因的關系,并未針對影像學表型的異質性與基因表達的差異性進行相關研究。2007年Segal等[7]采用28個影像學特征,成功對116個基因模塊包含的6 732個差異表達的腫瘤基因進行編碼,重建出78%的腫瘤基因,并揭示出與細胞的增殖、肝細胞生成和患者預后有關的基因表達的信息。文中雖未提及放射基因組學的概念,但實則是放射基因組學研究的核心,并已具備放射組學的雛形。2008年Diehn等[8]通過對多形性膠質母細胞瘤的研究發現,影像特征與基因特征具有高度的相關性。腫瘤內部的強化程度可間接反映表皮生長因子受體(epithelial growth factor receptor,EGFR)的表達程度,而且腫瘤表型呈浸潤型者,與水腫型患者比較,其預后更差。2012年,荷蘭學者Lambin等[9]正式提出了放射組學的概念,即高通量地從放射影像圖像中提取大量的影像特征,采取大量的自動化數據特征化算法將ROI內的影像數據轉化為具有高分辨率的、可發掘的空間數據。同年Kumar等[10]發表文章,將放射組學的定義進一步擴展為:從CT、PET或MRI等醫學影像圖像中高通量地提取并分析大量高級、定量的影像學特征。近些年,越來越多影像醫生開始關注放射組學,并在不同領域展開研究,而且取得了一定的成果[11-13]。
2 放射組學的常用研究手段
放射組學是多學科、多種成像技術的整合,區別于傳統影像學,包括以下組成部分:①影像的采集和重建;②圖像的分割和重組;③特征數據的提取和量化;④構建數據庫并共享數據。然而,每一步的順利完成都極具挑戰性。
2.1 影像的采集和重建
影像特征數據的準確性和可重復性取決于掃描協議的標準化。目前不同醫療機構之間針對不同類型疾病的檢查,并無指南和共識,若從中提取特征數據必定會存在差異,而不具有可比性,不能用于放射組學的分析。
2.2 圖像的分割和重組
圖像分割是提取數據的前提,醫學圖像的分割算法有多種,如區域增長法(region-growing methods)、水平設置法、圖像切割法[14]、動態輪廓(蛇形)算法〔active contours (snake) algorithms〕、半自動分割法(semiautomatic segmentations) [15]、livewires法、基于容量CT的分割法(volumetric CT based segmentation)等[16]。通過ROI把病變輪廓逐層勾畫出來,然后將二維ROI進行三維容積重組以生成三維感興趣容積(volume of interest,VOI),并從中提取特征數據。理想的分割標準為腫瘤圖像中不含有任何正常組織,所以圖像分割的準確與否,直接決定著所提取特征數據的準確性,因而分割范圍的要求最為嚴格,也最具挑戰性。圖像分割的方法有手動、半自動及全自動三種,目前應用較多的是前兩者,后者尚處于研發階段,相信隨著計算機仿真技術或分割算法的不斷改進,全自動圖像分割必定是今后圖像分割的主要技術手段。手動分割的優勢在于準確性高,對于多數邊界清晰但形態不規則的腫瘤,自動識別必定存在邊界識別的誤差,需要手動方式行精細地編輯;而對于邊界模糊不清的腫瘤,手動模式下不同診斷醫師之間對界定腫瘤邊界的結果存在明顯的異質性,導致數據的可重復性低,其次是耗時和低效,不能滿足海量數據高通量提取的要求,而自動或半自動容積分割將會減少這種異質性,使結果的可重復性更高[17]。當然,目前還沒有針對圖像分割的標準和指南,也沒有能同時滿足高通量、高重復性及高度一致的分割方法,應用合適的參數設置,使每一項分割都能夠實現對ROI分割的自動化或半自動化操作,必要時輔以手動編輯,以確保分割結果的準確性和可重復性。
2.3 特征數據的提取和量化
放射組學的核心是通過提取VOI內的高維度特征數據來定量描述病變的屬性,提取的特征數據包含兩種類型:一種是放射學中通常用于描述病變的術語,如大小、形狀、血管生成、毛刺等;另一種是不可視的特征如紋理(texture)、 組織直方圖(histogram)、分形維(fractal dimension) 等[17]。通常前者用于病變定性的描述,后者可定量描述病變的異質性。如腫瘤外形特征是重要的描述子(descriptor),經三維重組,VOI表面數據的量化可以用于描述腫瘤形態的特征,并實現外形特征的提取[18];然而諸如直方圖、紋理等特征數據需采用數學的方法定量提取,通過一階、二階或者高階的統計方法算出。通常ROI內所測值反映的是該面積內所有像素CT值的平均值,而直方圖可將1個ROI面積縮小至單個像素的大小,描述單個體素值的分布,如均數、中位數、最大值、最小值,以及直方圖的偏度(skewness)和峰度(kurtosis),因而對體素值的計算結果更為準確。直方圖特征通過一階統計方法算出。需明確的是,直方圖所測得的體素的值并不包含空間位置信息。二階統計可定量計算紋理的特征,紋理是醫學圖像中具有代表性和診斷啟示意義的視覺信息,是一種視覺感知的圖像局部特征的綜合,圖像某一位置的紋理特征與這一位置周圍的灰度變化規律密切相關。常用的紋理測度包括以下3類。①灰度共生矩陣,其不僅包含灰度統計信息,而且反映灰度分布的空間信息,根據具體任務還可使用如下測度:一是角二階矩(能量)〔angular second moment(energy)〕,反映圖像的均勻性;二是慣量(inertia),其對非均勻區的局部對比度敏感,非均勻區的慣量值大,均勻區的慣量值小;三是熵(entropy),其反映區域內的隨機程度,對于有結構紋理的組織,熵值要小些。②分形維,圖像的幾何形狀(粗糙程度)也可用分形維描述。分形是一個數學術語,是指如果一個數據集在所有的觀察尺度下都具有自相似性,即一個數據集的部分分布有著與整體分布相似的結構或屬性,則稱該數據集是分形的[19]。也就是說在分形上,每一組成部分在特征上都與整體相似。分形維作為分形的重要特征和度量,可以作為描述物體的一個穩定的特征量,把圖像的空間信息和灰度信息簡單而又有機地結合起來,可以以紋理的分形維來作為圖像的紋理特征進行提取[20]。紋理的分維值不同,則分屬不同紋理類型。③行程統計(run-length statistics)[21]。由于紋理特征描述相似(不相似)體素間對比值的內在統計關系,因此通過紋理分析可以測量腫瘤內的異質性。
2.4 構建數據庫及共享數據
為了加強影像特征數據的規范管理和高效利用,需要多學科合作建立整合的放射組學數據庫(integrated radiomics database,RDB),用于放射學特征數據和基因表型數據的存儲、檢索和分析。充足、高質量的特征數據是放射組學評估疾病預后的基礎。通過前文可知,特征數據的真實可靠性取決于圖像采集協議的一致性,這不僅是構建數據庫,同時也是數據共享的挑戰。
3 放射組學的初步臨床應用
放射組學可以揭示實體癌在空間和時間上存在著異質性[22-24]。Rutman等[25]曾提到,日后的疾病診斷中,放射學影像特征將反映相關病理基礎或評估預后的基因標記作為個性化醫學的診斷治療之用。Wibmer等[26]通過對147例經活檢證實的前列腺癌患者的MRI圖像的研究發現,T2加權成像(T2 weighted imaging,T2WI)和表觀擴散系數(apparent diffusion coefficient,ADC)圖像的Haralick紋理特征有利于區分癌變組織與非癌變組織:ADC圖像中,癌變組織的熵和慣量值明顯高于非癌變組織,而能量、相關性和均質性則明顯低于非癌變組織;T2WI圖像中,癌變組織的慣量值明顯高于非癌變組織,而相關性則明顯低于非癌變組織,而兩者能量、熵和均質性的差異均無統計學意義。肺癌的毛刺征是腫瘤在肺實質內浸潤生長的表現,反映了腫瘤的異質性,通常預后較差[27-28]。對腫塊行二維分割并逐層重組生成三維圖像后,可計算出瘤體的表面積和體積。由表面積體積比(表面積/體積)可知,對于給定容積,球體的表面積最小;相反地,對于給定容積,邊緣帶有毛刺或突起的物體,其表面積增大。換言之,通過外形特征數據的提取,可得出另一個具有診斷價值的定量參數。
基于計算機提取的乳腺癌MRI圖像的紋理數據經多元線性回歸分析[29]表明,放射組學特征與多基因檢測復發評分間有明顯相關性(P <0.001),強化紋理(腫瘤異質性)的值與復發風險呈負相關,強化紋理值越低,腫瘤異質性越強,復發風險越高。Huang等[30]通過放射組學模型預測結直腸癌淋巴結轉移的概率,他回顧性分析了326例經病理學檢查證實的結腸癌患者的臨床資料后發現,放射組學模型的預測結果(包含24個放射組學特征)與實際淋巴結分期有明顯的相關性,一致性指數(C-index)=0.736,提示該放射組學模型針對結腸癌淋巴結轉移具有很好的預測能力。2007年Kuo等[31]對阿霉素治療肝細胞癌的敏感性和耐藥性相關基因進行了研究,發現肝動脈期腫瘤邊緣評分與阿霉素治療反應基因表型有明顯的相關性,也就是說,肝動脈期腫瘤邊界越清晰,表明阿霉素治療越敏感,肝動脈期腫瘤邊界越模糊,表明對阿霉素的抵抗效應越明顯。表明放射基因組學可以對治療方式的選擇給予指導,尤其是在抗腫瘤藥物的敏感或耐受方面,為日后放射組學在腎細胞癌、肺癌等的療效評估和治療方式選擇上奠定了理論基礎[32-34]。
4 展望
放射組學由黑白灰階圖像的判讀轉變為對影像紋理特征的分析,轉變了傳統的影像診斷模式。雖然已在上述一些領域進行了初步的探索,并取得了可靠的結果,但是諸如預測肝硬變背景中退變結節發生早期肝細胞癌的概率等臨床關鍵問題,還需進一步研究。同時筆者也相信,隨著數據庫樣本量的不斷補充,計算機仿真技術的不斷發展,更準確、適用的數學模型的建立,放射組學必定會針對更多臨床工作中面臨的難點和熱點進行更深層次的研究,以更好地服務于臨床診斷工作。
2015年美國總統奧巴馬在國情咨文中提到“精準醫療計劃”,拉開了全球精準醫療的帷幕。精準醫療是以精準診斷為基礎的,要建立精準診斷體系,精準影像醫學必不可少[1-3]。傳統的影像醫學模式是基于形態學診斷的,不能提供精準醫療所需要的分子與基因水平的生物學信息,不能提供個性化生物和靶向治療所需要的信息,因此顯然無法達到精準影像醫學的標準,這種傳統的影像醫學診斷模式亟待改變[4]。近年來在影像醫學領域嶄露頭角的放射組學(radiomics),它應用大量的自動化數據特征化算法,將感興趣區域(region of interest,ROI)的影像數據轉化為具有高分辨率的、可發掘的特征空間數據,其有望成為精準影像醫學的重要基石。筆者現就放射組學的發展過程和臨床應用做一綜述。
1 放射組學的起源與發展
隨著影像采集設備硬件水平的提升和采集技術的發展,影像設備所生成的圖像數據量越來越大,過去對圖像數據的處理與使用方式顯然難以充分挖掘圖像的大數據信息。因此放射組學應運而生,它將傳統的影像圖像轉換為可發掘的數據信息,并對之進行高通量(high throughput)定量分析。
高通量原本是指在基因測序中一次對幾十萬到幾百萬條DNA分子進行序列測定[5],而放射組學中提取的特征數據與上述DNA分子有著相似的數據量龐大的特點,因此其與高通量測序在信息量的本質上是相似的。組學(-omics)是英文后綴,意為一些種類個體的系統集合。2003年Baumann等[6]首次提出放射基因組學(radiogenomics)的概念,其主要研究腫瘤組織及瘤周正常組織對放射治療的敏感性,及其同遺傳基因的關系,并未針對影像學表型的異質性與基因表達的差異性進行相關研究。2007年Segal等[7]采用28個影像學特征,成功對116個基因模塊包含的6 732個差異表達的腫瘤基因進行編碼,重建出78%的腫瘤基因,并揭示出與細胞的增殖、肝細胞生成和患者預后有關的基因表達的信息。文中雖未提及放射基因組學的概念,但實則是放射基因組學研究的核心,并已具備放射組學的雛形。2008年Diehn等[8]通過對多形性膠質母細胞瘤的研究發現,影像特征與基因特征具有高度的相關性。腫瘤內部的強化程度可間接反映表皮生長因子受體(epithelial growth factor receptor,EGFR)的表達程度,而且腫瘤表型呈浸潤型者,與水腫型患者比較,其預后更差。2012年,荷蘭學者Lambin等[9]正式提出了放射組學的概念,即高通量地從放射影像圖像中提取大量的影像特征,采取大量的自動化數據特征化算法將ROI內的影像數據轉化為具有高分辨率的、可發掘的空間數據。同年Kumar等[10]發表文章,將放射組學的定義進一步擴展為:從CT、PET或MRI等醫學影像圖像中高通量地提取并分析大量高級、定量的影像學特征。近些年,越來越多影像醫生開始關注放射組學,并在不同領域展開研究,而且取得了一定的成果[11-13]。
2 放射組學的常用研究手段
放射組學是多學科、多種成像技術的整合,區別于傳統影像學,包括以下組成部分:①影像的采集和重建;②圖像的分割和重組;③特征數據的提取和量化;④構建數據庫并共享數據。然而,每一步的順利完成都極具挑戰性。
2.1 影像的采集和重建
影像特征數據的準確性和可重復性取決于掃描協議的標準化。目前不同醫療機構之間針對不同類型疾病的檢查,并無指南和共識,若從中提取特征數據必定會存在差異,而不具有可比性,不能用于放射組學的分析。
2.2 圖像的分割和重組
圖像分割是提取數據的前提,醫學圖像的分割算法有多種,如區域增長法(region-growing methods)、水平設置法、圖像切割法[14]、動態輪廓(蛇形)算法〔active contours (snake) algorithms〕、半自動分割法(semiautomatic segmentations) [15]、livewires法、基于容量CT的分割法(volumetric CT based segmentation)等[16]。通過ROI把病變輪廓逐層勾畫出來,然后將二維ROI進行三維容積重組以生成三維感興趣容積(volume of interest,VOI),并從中提取特征數據。理想的分割標準為腫瘤圖像中不含有任何正常組織,所以圖像分割的準確與否,直接決定著所提取特征數據的準確性,因而分割范圍的要求最為嚴格,也最具挑戰性。圖像分割的方法有手動、半自動及全自動三種,目前應用較多的是前兩者,后者尚處于研發階段,相信隨著計算機仿真技術或分割算法的不斷改進,全自動圖像分割必定是今后圖像分割的主要技術手段。手動分割的優勢在于準確性高,對于多數邊界清晰但形態不規則的腫瘤,自動識別必定存在邊界識別的誤差,需要手動方式行精細地編輯;而對于邊界模糊不清的腫瘤,手動模式下不同診斷醫師之間對界定腫瘤邊界的結果存在明顯的異質性,導致數據的可重復性低,其次是耗時和低效,不能滿足海量數據高通量提取的要求,而自動或半自動容積分割將會減少這種異質性,使結果的可重復性更高[17]。當然,目前還沒有針對圖像分割的標準和指南,也沒有能同時滿足高通量、高重復性及高度一致的分割方法,應用合適的參數設置,使每一項分割都能夠實現對ROI分割的自動化或半自動化操作,必要時輔以手動編輯,以確保分割結果的準確性和可重復性。
2.3 特征數據的提取和量化
放射組學的核心是通過提取VOI內的高維度特征數據來定量描述病變的屬性,提取的特征數據包含兩種類型:一種是放射學中通常用于描述病變的術語,如大小、形狀、血管生成、毛刺等;另一種是不可視的特征如紋理(texture)、 組織直方圖(histogram)、分形維(fractal dimension) 等[17]。通常前者用于病變定性的描述,后者可定量描述病變的異質性。如腫瘤外形特征是重要的描述子(descriptor),經三維重組,VOI表面數據的量化可以用于描述腫瘤形態的特征,并實現外形特征的提取[18];然而諸如直方圖、紋理等特征數據需采用數學的方法定量提取,通過一階、二階或者高階的統計方法算出。通常ROI內所測值反映的是該面積內所有像素CT值的平均值,而直方圖可將1個ROI面積縮小至單個像素的大小,描述單個體素值的分布,如均數、中位數、最大值、最小值,以及直方圖的偏度(skewness)和峰度(kurtosis),因而對體素值的計算結果更為準確。直方圖特征通過一階統計方法算出。需明確的是,直方圖所測得的體素的值并不包含空間位置信息。二階統計可定量計算紋理的特征,紋理是醫學圖像中具有代表性和診斷啟示意義的視覺信息,是一種視覺感知的圖像局部特征的綜合,圖像某一位置的紋理特征與這一位置周圍的灰度變化規律密切相關。常用的紋理測度包括以下3類。①灰度共生矩陣,其不僅包含灰度統計信息,而且反映灰度分布的空間信息,根據具體任務還可使用如下測度:一是角二階矩(能量)〔angular second moment(energy)〕,反映圖像的均勻性;二是慣量(inertia),其對非均勻區的局部對比度敏感,非均勻區的慣量值大,均勻區的慣量值小;三是熵(entropy),其反映區域內的隨機程度,對于有結構紋理的組織,熵值要小些。②分形維,圖像的幾何形狀(粗糙程度)也可用分形維描述。分形是一個數學術語,是指如果一個數據集在所有的觀察尺度下都具有自相似性,即一個數據集的部分分布有著與整體分布相似的結構或屬性,則稱該數據集是分形的[19]。也就是說在分形上,每一組成部分在特征上都與整體相似。分形維作為分形的重要特征和度量,可以作為描述物體的一個穩定的特征量,把圖像的空間信息和灰度信息簡單而又有機地結合起來,可以以紋理的分形維來作為圖像的紋理特征進行提取[20]。紋理的分維值不同,則分屬不同紋理類型。③行程統計(run-length statistics)[21]。由于紋理特征描述相似(不相似)體素間對比值的內在統計關系,因此通過紋理分析可以測量腫瘤內的異質性。
2.4 構建數據庫及共享數據
為了加強影像特征數據的規范管理和高效利用,需要多學科合作建立整合的放射組學數據庫(integrated radiomics database,RDB),用于放射學特征數據和基因表型數據的存儲、檢索和分析。充足、高質量的特征數據是放射組學評估疾病預后的基礎。通過前文可知,特征數據的真實可靠性取決于圖像采集協議的一致性,這不僅是構建數據庫,同時也是數據共享的挑戰。
3 放射組學的初步臨床應用
放射組學可以揭示實體癌在空間和時間上存在著異質性[22-24]。Rutman等[25]曾提到,日后的疾病診斷中,放射學影像特征將反映相關病理基礎或評估預后的基因標記作為個性化醫學的診斷治療之用。Wibmer等[26]通過對147例經活檢證實的前列腺癌患者的MRI圖像的研究發現,T2加權成像(T2 weighted imaging,T2WI)和表觀擴散系數(apparent diffusion coefficient,ADC)圖像的Haralick紋理特征有利于區分癌變組織與非癌變組織:ADC圖像中,癌變組織的熵和慣量值明顯高于非癌變組織,而能量、相關性和均質性則明顯低于非癌變組織;T2WI圖像中,癌變組織的慣量值明顯高于非癌變組織,而相關性則明顯低于非癌變組織,而兩者能量、熵和均質性的差異均無統計學意義。肺癌的毛刺征是腫瘤在肺實質內浸潤生長的表現,反映了腫瘤的異質性,通常預后較差[27-28]。對腫塊行二維分割并逐層重組生成三維圖像后,可計算出瘤體的表面積和體積。由表面積體積比(表面積/體積)可知,對于給定容積,球體的表面積最小;相反地,對于給定容積,邊緣帶有毛刺或突起的物體,其表面積增大。換言之,通過外形特征數據的提取,可得出另一個具有診斷價值的定量參數。
基于計算機提取的乳腺癌MRI圖像的紋理數據經多元線性回歸分析[29]表明,放射組學特征與多基因檢測復發評分間有明顯相關性(P <0.001),強化紋理(腫瘤異質性)的值與復發風險呈負相關,強化紋理值越低,腫瘤異質性越強,復發風險越高。Huang等[30]通過放射組學模型預測結直腸癌淋巴結轉移的概率,他回顧性分析了326例經病理學檢查證實的結腸癌患者的臨床資料后發現,放射組學模型的預測結果(包含24個放射組學特征)與實際淋巴結分期有明顯的相關性,一致性指數(C-index)=0.736,提示該放射組學模型針對結腸癌淋巴結轉移具有很好的預測能力。2007年Kuo等[31]對阿霉素治療肝細胞癌的敏感性和耐藥性相關基因進行了研究,發現肝動脈期腫瘤邊緣評分與阿霉素治療反應基因表型有明顯的相關性,也就是說,肝動脈期腫瘤邊界越清晰,表明阿霉素治療越敏感,肝動脈期腫瘤邊界越模糊,表明對阿霉素的抵抗效應越明顯。表明放射基因組學可以對治療方式的選擇給予指導,尤其是在抗腫瘤藥物的敏感或耐受方面,為日后放射組學在腎細胞癌、肺癌等的療效評估和治療方式選擇上奠定了理論基礎[32-34]。
4 展望
放射組學由黑白灰階圖像的判讀轉變為對影像紋理特征的分析,轉變了傳統的影像診斷模式。雖然已在上述一些領域進行了初步的探索,并取得了可靠的結果,但是諸如預測肝硬變背景中退變結節發生早期肝細胞癌的概率等臨床關鍵問題,還需進一步研究。同時筆者也相信,隨著數據庫樣本量的不斷補充,計算機仿真技術的不斷發展,更準確、適用的數學模型的建立,放射組學必定會針對更多臨床工作中面臨的難點和熱點進行更深層次的研究,以更好地服務于臨床診斷工作。