引用本文: 余志斌, 劉婧瀟, 楊毅, 張翔, 申藝瑋, 張珂瑞, 王型金, 馬立泰. 基于機器視覺的胸腰椎骨折智能分類方法的建立及測試研究. 華西醫學, 2021, 36(10): 1337-1343. doi: 10.7507/1002-0179.202108003 復制
脊柱骨折是常見的脊柱疾病,因其損傷機制復雜、表現多樣,現階段的脊柱骨折診斷分型是基于骨折形態或神經功能評分等進行的簡單分型,不同臨床醫師對同一患者的診斷分型存在較大差異。目前的骨折診斷分型系統智能化程度低、一致性較差、缺乏個性化治療方式指導,不利于脊柱骨折標準化診療方案的形成與推廣應用。因此急需一種智能分類的方法來統一分型,對骨折類型進行輔助診斷。機器視覺技術在臨床醫療領域的應用主要是對醫療影像進行讀片和診斷。通過機器視覺技術能夠快速標定患者醫學圖像中的異常結構或區域,為醫生的判斷和診療提供重要參考。當前基于機器視覺技術的醫學影像處理研究主要集中于大腦[1-3]、肝臟[4]、胰腺[5]、前列腺[6]、多器官[7]和骨折分析[8-10]等方面。基于醫學影像的人工智能診斷技術在骨科領域還處于初步探索階段[11-14]。從人工智能的角度研究骨科智能化診斷問題,特別是針對胸腰椎骨折[15-19]的智能識別、自主定位等還亟待人們更深入地研究。本研究提出了一種基于快速區域卷積神經網絡(faster-region convolutional neural network,Faster RCNN)深度學習的胸腰椎骨折新型智能分類方法,以改善目前復雜的人工診斷流程。
1 資料與方法
1.1 研究對象
本研究所有病例CT圖像均來自于四川大學華西醫院2019年1月-2020年3月收集的胸腰椎骨折CT影像共1256張,選擇線條清晰、大小合適、處于能夠觀察到骨折角度的圖片作為樣本數據;排除陰影遮擋嚴重、隱匿骨折、具有骨質疏松等特殊骨性結構的特殊樣本。本研究經四川大學華西醫院生物醫學倫理分委會審查通過,審批號:2018 年審(234)號。
1.2 基于Faster RCNN的胸腰椎骨折分類
本研究基于Faster RCNN深度學習網絡建立胸腰椎骨折智能分類方法,針對不同類型骨折的分型問題,應用Faster RCNN神經網絡對事先標記好的大量骨折類型CT樣本數據進行迭代學習,提取各類骨折樣本數據的差異特征作為分類器的輸入,實現對相應骨折測試樣本數據的分類。
1.2.1 數據預處理
為了適合 Faster RCNN 網絡的輸入,首先對 CT 圖像進行預處理,使圖像標準化,包括對圖像灰度化、統一大小和分辨率等。① CT 影像主要是黑白色調,需對其進行灰度化處理。灰度化操作后,圖像通道數減少,能夠有效提升圖像處理的效率。本研究使用 Python 中自帶的 PIL 庫方法實現圖像灰度化。② 圖片之間的尺度相差較大時,圖像特征也會差別很大,會對訓練模型的速度和結果產生較大影響。本研究同樣使用 Python 中自帶的 PIL 庫處理圖片的大小和分辨率,使其符合迭代學習網絡的輸入尺寸。
1.2.2 數據集構建
基于數據預處理,四川大學華西醫院脊柱外科從事臨床工作10年以上的醫生應用影像LabelImg系統對CT圖像進行分類確認并標注,建立用于深度學習網絡的訓練集和驗證集。根據AO Spine分型2013版分類標準,將椎體骨折分為A型(椎體壓縮)、B型(前后方結構牽張性損傷)和C型(前后方結構旋轉性損傷)3型,其中A型又分為A1(單個終板骨折的楔形擠壓或嵌塞性骨折,不累及椎體后壁)、A2(骨折線同時累及2個終板,但不累及椎體后壁的劈裂型或鉗夾型骨折)、A3(椎體骨折僅累及單個終板,同時累及椎體后壁和椎管)和A4(累及上下2個終板和后壁的椎體骨折)4個亞型[15]。
對于選擇的樣本,考慮到實際情況,一張 CT 圖上可能同時存在多處不同類型的骨折,本研究提出的智能分類方法也可以處理胸腰椎存在多處骨折的情況。
對 ABC 3 種基本類型的研究中,本研究共選用 1039 張胸腰椎骨折圖像進行訓練和驗證,其中訓練集 1004 張,驗證集 35 張,包括 C 型 188 張,腰椎 A 型 375 張,腰椎 B 型 42 張,胸椎 A 型 380 張,胸椎 B 型 54 張;男 788 張,女 251 張;年齡 31~69 歲,平均 46 歲。選用 217 張作為測試樣本,其中 C 型 32 張,腰椎 A 型 78 張,腰椎 B 型 13 張,胸椎 A 型 80 張,胸椎 B 型 14 張;男 165 張,女 52 張;年齡 27~69 歲,平均 40 歲。
在 A 型骨折的亞型分類研究中,共選用 581 張胸腰椎骨折圖像進行訓練和驗證,其中訓練集 556 張,驗證集 25 張,包括 A1 型 49 張,A2 型 31 張,A3 型 256 張,A4 型 245 張;男 413 張,女 168 張;年齡 31~49 歲,平均 41 歲。選用 104 張用作測試樣本,其中 A1 型 12 張,A2 型 13 張,A3 型 38 張,A4 型 41 張;男 82 張,女 22 張;年齡 28~48 歲,平均 39 歲。
1.2.3 應用卷積神經網絡提取特征
Faster RCNN 可被認為由 2 個模塊組成:區域生成網絡(region proposal network,RPN)候選框提取模塊+Fast RCNN 檢測模塊。在 Faster RCNN 中,訓練圖像輸入 VGG16 卷積神經網絡提取圖片的特征;候選框是經過 RPN 層產生的,然后再把各個“候選框”映射到特征圖上,得到感興趣區域的特征圖;感興趣區域池化層將每個候選區域分為 M×N 個塊(M 表示池高,N 表示池寬)。針對每個塊執行最大池操作,使得在特征映射過程中不同大小的候選區域被變換為均勻大小的特征向量,然后送入下一層。池化層使得輸出的特征圖與其后的全連接層的維度保持一致。最后,Softmax Loss(探測分類概率)和 Smooth L1 Loss(探測邊框回歸)進行分類和回歸。見圖1。

ROI:感興趣區;Feature map:特征圖
卷積層,又稱特征提取層。卷積層具體包含了卷積、池化、激活3種層。為了適應骨折圖像分類,本研究中Faster RCNN學習模型的卷積層和激活層都是13個,池化層是4個,具體結構見圖2。

RPN的操作過程如下:使用小型網絡在最后的卷積特征圖上執行滑動掃描,滑動窗口處理確保回歸層和分類層與卷積層的整個特征空間相關聯。然后將其映射到低維矢量,最后將這個低維矢量發送到回歸層和分類層,輸出智能分類診斷結果,具體結構見圖3。

1.3 評價指標
本研究根據測試集的分類結果,采用總體正確率、Kappa系數作為總體分類效果的評價指標,其中總體正確率是所有正確分類的樣本占總樣本的比例,是對總體準確性的評估;Kappa系數反映分類器分類結果與實際結果的一致性。Faster RCNN網絡為多分類網絡,對于每個類別而言,我們把它拆分成多個二分類進行計算,如對于ABC類骨折分型,在計算評價指標時,把五分類的問題拆分為5個二分類的問題,采用單類正確率、靈敏度、特異度、陽性預測值、陰性預測值、約登指數作為對某一類別分類效果的評價指標,其中單類正確率是對于是否為某一類型正確分類的樣本占總樣本的比例;靈敏度表示所有正例中被分類正確的比例,衡量分類器對正例的識別能力;特異度是指對“真陰性”情況作出正確預測的概率,衡量了模型對負例的識別能力;陽性預測值是被分類為正例的樣本中,實際為正例的比例;陰性預測值是被分類為負例的樣本中,實際為負例的比例;約登指數=靈敏度+特異度–1。損失值是用來度量訓練所得模型的輸出結果與真實結果差異的一個指標,與損失函數的選擇和迭代次數有關。
1.4 統計學方法
使用SPSS 24.0軟件對數據進行分析統計。根據數據特點選用正確率、靈敏度、特異度、陽性預測值、陰性預測值、約登指數、Kappa系數進行統計分析。檢驗水準α=0.05。
2 結果
2.1 ABC型智能分類測試結果
ABC 型智能分類結果如表 1 所示。在 32 張 C 型骨折識別中,1 張沒有識別結果,3 張錯識成胸椎 A 型,28 張識別正確。在 78 張腰椎 A 型骨折識別中,有 5 張錯識成胸椎 A 型,73 張識別正確。在 13 張腰椎 B 型骨折識別中,3 張錯識成腰椎 A 型,10 張識別正確。在 80 張胸椎 A 型骨折識別中,有 5 張沒有識別結果,3 張錯識別成腰椎 A 型,72 張識別正確。在 14 張胸椎 B 型骨折識別中,有 3 張錯識成胸椎 A 型,11 張識別正確。該分類的總體正確率為 89.4%,Kappa 系數為 0.849(P<0.001)。表 2 為根據該結果計算出的各類別的單類正確率、靈敏度、特異度、陽性預測值、陰性預測值和約登指數。成功識別示例見圖 4a、4b,錯誤識別示例見圖 4c、4d。圖 5為 ABC 型分類訓練過程中損失值與迭代次數的關系。



a. 正確識別 C 型骨折(矢狀位);b. 正確識別 A 型骨折(冠狀位);c. 將腰椎 A 型錯識為胸椎A型(矢狀位);d. 將胸椎 B 型錯識為腰椎 B 型(矢狀位)

2.2 A型亞型智能分類測試結果
A型亞型智能分類結果如表3所示,在12張A1型骨折中,有1張沒有識別結果,1張錯成A4型,10張正確識別。在13張A2型骨折中,有4張錯識成A4型,9張正確識別。在38張A3型骨折中,1張無識別結果,2張錯識成A4型,35張正確識別。在41張A4型骨折中,有3張沒有識別結果,1張錯識A3型,37張識別正確。該分類的總體正確率為87.5%,Kappa系數為0.817(P<0.001)。表4為根據該結果計算出的單類正確率、靈敏度、特異度、陽性預測值、陰性預測值和約登指數。圖6為成功識別與錯誤識別示例。圖7為A型亞型分類訓練過程中損失值與迭代次數的關系。



a. 正確識別A3型(冠狀位);b. 正確識別A3型(矢狀位);c. 正確識別A4型(冠狀位);d. 正確識別A4型(矢狀位);e. 正確識別A1、A4型(矢狀位);f. 將A1型錯識為A4型(矢狀位);g. 將A3型錯識為A4型(矢狀位);h. 將A4型錯識為A3型(矢狀位)

3 討論
本研究將機器視覺技術應用到人體胸腰椎骨折的智能分類中,對大量的CT圖片進行了篩選、預處理、重命名、樣本標注等工作,之后使用Faster RCNN對胸腰椎骨折樣本數據進行了學習和訓練,建立了胸腰椎骨折智能分類模型與方法,并應用人體胸腰椎骨折CT圖像進行測試實驗。
對ABC型骨折分類,分類模型的總體分類正確率為89.4%,Kappa系數為0.849。無論是胸椎還是腰椎,A型骨折的分類靈敏度和特異度都比較高,在90%以上。同時,與B型、C型相比,A型的無標識樣本也偏多,這可能是在A型數據集中無規律的陰影偏多導致的。并且,無標識的情況極少出現在冠狀面,主要集中出現在矢狀面。這是因為A3、A4型均為爆裂骨折,骨折形態較為豐富,導致分類難度增加。
C型的約登指數排第2位。在1004張訓練圖片和39張驗證圖片中,C型有188張,與A型相比,占比較小。C型被誤識的主要原因是在冠狀面C型與A型的相似度很高,只有在矢狀面時才能獲得表征C型骨節錯位的特征。不只是C型,B型在冠狀面也會有類似的問題。在相似程度相近的情況下,被誤識成A型主要是因為A型圖片占比較高,獲得了表征A型骨折的更全面的特征,這是數據集類型比例不均勻所導致的。C型能有較高的正確率是因為其為移位骨折在形態上與A、B差異較大,易于區分。
B型骨折在測試中的約登指數最低,介于0.7 到0.8之間,特異性達到了100%,這主要是用于訓練網絡的B型樣本過少,甚至少于C型,樣本比例之間不平衡,學習網絡模型對A型和C型骨折的特征學習得較好;其次是因為,B型往往是骨節的斷裂延伸到棘突部分,所以當棘突的骨折不明顯時,很容易將B型錯識別成A型。
對于A型亞型骨折分類,模型的總體正確率為87.5%,Kappa系數為0.817。A3和A4型的靈敏度比較高,均超過了90%。A3和A4識別的主要問題是互相誤識別。A3型骨折只有一個終板斷裂,A4上下終板均斷裂。區分A3和A4只能看是否累及2個終板,二者之間的差異較小,這是造成二者混淆的主要原因。除此之外,A3和A4均為爆裂骨折,骨折形態多樣多變。從某種程度上來說,556 例訓練樣本數據量不夠,這導致了A3和A4類型出現了無標識的情況。
A1、A2識別的靈敏度都偏低,主要原因是A1、A2的訓練集偏少。除了無標識的情況外,誤識的都為A3、A4型,這是由于在本數據集中A3、A4占比較大。本研究在選擇圖片時已經人為地平衡了類型比例,使A1和A2數量相近、A3和A4數量相近,這樣會在數據集樣本不夠的情況下保證一定的識別正確率。
從本研究結果可以看到B型、C型以及A1、A2兩種分型的靈敏度分別較A型以及A3、A4型低。由于這幾種骨折類型的病例較少,與其他類型的數據量相比,這幾種數據量不夠,學習網絡不能全面提取這些骨折類型的特征,導致這些類型的識別效果較差。深度學習對數據集質量有很高的要求,而醫療影像的獲得嚴重依賴于臨床病例,建立普適性的影像數據集難度大。本研究發現,數據集中不同類型的比例也會對實驗結果產生影響。根據臨床經驗,A1、A2型骨折的患者本身偏少且有些骨折病例特征不夠明顯,致使機器不易識別;A3、A4型數據更為集中,但骨折表現形式較多,導致學習網絡學習不到足夠全面的特征,從而無法正確識別。數據集種類的比例失衡會導致占比較小的類別被錯識成占比大的類別。臨床影像數據不足導致的數據集分布不均勻將對實驗結果產生影響,需要在進一步研究中增加樣本量,減少偏倚。
其次是訓練數據集的數量與迭代次數問題。本研究中的 ABC 分型采用了訓練集和驗證集共 1039 張,迭代學習 10000 次。在最終的訓練 10000 次迭代之前,先后采用了 3000 次和 6000 次的訓練,其識別結果損失較大難以達到預期效果,迭代次數 10000 次得到的效果較好。因此,可以得出結論,訓練集的大小直接影響智能分類識別結果。
綜上所述,本研究從當前脊柱骨折診斷面臨的問題出發,將最新的深度學習方法引入到骨折診斷分型中,通過學習網絡模型的訓練和驗證,最終構建了一種基于深度學習的胸腰椎骨折智能分類方法,能夠實現機器自主檢測骨折,并對骨折進行分類,有助于縮短人工診斷所需時間,有效促進優質醫療資源下沉、提高脊柱骨折早期診斷的準確性和一致性,從而提高脊柱骨折早期救治的療效。
這項研究仍存在一些局限性:在樣本數據量較小情況下,本研究提出的智能分類方法的分類精度不高且容易漏識、錯識,今后的研究將著力解決上述小樣本問題,并通過更改網絡結構和算法實現針對骨折形態的準確學習。
脊柱骨折是常見的脊柱疾病,因其損傷機制復雜、表現多樣,現階段的脊柱骨折診斷分型是基于骨折形態或神經功能評分等進行的簡單分型,不同臨床醫師對同一患者的診斷分型存在較大差異。目前的骨折診斷分型系統智能化程度低、一致性較差、缺乏個性化治療方式指導,不利于脊柱骨折標準化診療方案的形成與推廣應用。因此急需一種智能分類的方法來統一分型,對骨折類型進行輔助診斷。機器視覺技術在臨床醫療領域的應用主要是對醫療影像進行讀片和診斷。通過機器視覺技術能夠快速標定患者醫學圖像中的異常結構或區域,為醫生的判斷和診療提供重要參考。當前基于機器視覺技術的醫學影像處理研究主要集中于大腦[1-3]、肝臟[4]、胰腺[5]、前列腺[6]、多器官[7]和骨折分析[8-10]等方面。基于醫學影像的人工智能診斷技術在骨科領域還處于初步探索階段[11-14]。從人工智能的角度研究骨科智能化診斷問題,特別是針對胸腰椎骨折[15-19]的智能識別、自主定位等還亟待人們更深入地研究。本研究提出了一種基于快速區域卷積神經網絡(faster-region convolutional neural network,Faster RCNN)深度學習的胸腰椎骨折新型智能分類方法,以改善目前復雜的人工診斷流程。
1 資料與方法
1.1 研究對象
本研究所有病例CT圖像均來自于四川大學華西醫院2019年1月-2020年3月收集的胸腰椎骨折CT影像共1256張,選擇線條清晰、大小合適、處于能夠觀察到骨折角度的圖片作為樣本數據;排除陰影遮擋嚴重、隱匿骨折、具有骨質疏松等特殊骨性結構的特殊樣本。本研究經四川大學華西醫院生物醫學倫理分委會審查通過,審批號:2018 年審(234)號。
1.2 基于Faster RCNN的胸腰椎骨折分類
本研究基于Faster RCNN深度學習網絡建立胸腰椎骨折智能分類方法,針對不同類型骨折的分型問題,應用Faster RCNN神經網絡對事先標記好的大量骨折類型CT樣本數據進行迭代學習,提取各類骨折樣本數據的差異特征作為分類器的輸入,實現對相應骨折測試樣本數據的分類。
1.2.1 數據預處理
為了適合 Faster RCNN 網絡的輸入,首先對 CT 圖像進行預處理,使圖像標準化,包括對圖像灰度化、統一大小和分辨率等。① CT 影像主要是黑白色調,需對其進行灰度化處理。灰度化操作后,圖像通道數減少,能夠有效提升圖像處理的效率。本研究使用 Python 中自帶的 PIL 庫方法實現圖像灰度化。② 圖片之間的尺度相差較大時,圖像特征也會差別很大,會對訓練模型的速度和結果產生較大影響。本研究同樣使用 Python 中自帶的 PIL 庫處理圖片的大小和分辨率,使其符合迭代學習網絡的輸入尺寸。
1.2.2 數據集構建
基于數據預處理,四川大學華西醫院脊柱外科從事臨床工作10年以上的醫生應用影像LabelImg系統對CT圖像進行分類確認并標注,建立用于深度學習網絡的訓練集和驗證集。根據AO Spine分型2013版分類標準,將椎體骨折分為A型(椎體壓縮)、B型(前后方結構牽張性損傷)和C型(前后方結構旋轉性損傷)3型,其中A型又分為A1(單個終板骨折的楔形擠壓或嵌塞性骨折,不累及椎體后壁)、A2(骨折線同時累及2個終板,但不累及椎體后壁的劈裂型或鉗夾型骨折)、A3(椎體骨折僅累及單個終板,同時累及椎體后壁和椎管)和A4(累及上下2個終板和后壁的椎體骨折)4個亞型[15]。
對于選擇的樣本,考慮到實際情況,一張 CT 圖上可能同時存在多處不同類型的骨折,本研究提出的智能分類方法也可以處理胸腰椎存在多處骨折的情況。
對 ABC 3 種基本類型的研究中,本研究共選用 1039 張胸腰椎骨折圖像進行訓練和驗證,其中訓練集 1004 張,驗證集 35 張,包括 C 型 188 張,腰椎 A 型 375 張,腰椎 B 型 42 張,胸椎 A 型 380 張,胸椎 B 型 54 張;男 788 張,女 251 張;年齡 31~69 歲,平均 46 歲。選用 217 張作為測試樣本,其中 C 型 32 張,腰椎 A 型 78 張,腰椎 B 型 13 張,胸椎 A 型 80 張,胸椎 B 型 14 張;男 165 張,女 52 張;年齡 27~69 歲,平均 40 歲。
在 A 型骨折的亞型分類研究中,共選用 581 張胸腰椎骨折圖像進行訓練和驗證,其中訓練集 556 張,驗證集 25 張,包括 A1 型 49 張,A2 型 31 張,A3 型 256 張,A4 型 245 張;男 413 張,女 168 張;年齡 31~49 歲,平均 41 歲。選用 104 張用作測試樣本,其中 A1 型 12 張,A2 型 13 張,A3 型 38 張,A4 型 41 張;男 82 張,女 22 張;年齡 28~48 歲,平均 39 歲。
1.2.3 應用卷積神經網絡提取特征
Faster RCNN 可被認為由 2 個模塊組成:區域生成網絡(region proposal network,RPN)候選框提取模塊+Fast RCNN 檢測模塊。在 Faster RCNN 中,訓練圖像輸入 VGG16 卷積神經網絡提取圖片的特征;候選框是經過 RPN 層產生的,然后再把各個“候選框”映射到特征圖上,得到感興趣區域的特征圖;感興趣區域池化層將每個候選區域分為 M×N 個塊(M 表示池高,N 表示池寬)。針對每個塊執行最大池操作,使得在特征映射過程中不同大小的候選區域被變換為均勻大小的特征向量,然后送入下一層。池化層使得輸出的特征圖與其后的全連接層的維度保持一致。最后,Softmax Loss(探測分類概率)和 Smooth L1 Loss(探測邊框回歸)進行分類和回歸。見圖1。

ROI:感興趣區;Feature map:特征圖
卷積層,又稱特征提取層。卷積層具體包含了卷積、池化、激活3種層。為了適應骨折圖像分類,本研究中Faster RCNN學習模型的卷積層和激活層都是13個,池化層是4個,具體結構見圖2。

RPN的操作過程如下:使用小型網絡在最后的卷積特征圖上執行滑動掃描,滑動窗口處理確保回歸層和分類層與卷積層的整個特征空間相關聯。然后將其映射到低維矢量,最后將這個低維矢量發送到回歸層和分類層,輸出智能分類診斷結果,具體結構見圖3。

1.3 評價指標
本研究根據測試集的分類結果,采用總體正確率、Kappa系數作為總體分類效果的評價指標,其中總體正確率是所有正確分類的樣本占總樣本的比例,是對總體準確性的評估;Kappa系數反映分類器分類結果與實際結果的一致性。Faster RCNN網絡為多分類網絡,對于每個類別而言,我們把它拆分成多個二分類進行計算,如對于ABC類骨折分型,在計算評價指標時,把五分類的問題拆分為5個二分類的問題,采用單類正確率、靈敏度、特異度、陽性預測值、陰性預測值、約登指數作為對某一類別分類效果的評價指標,其中單類正確率是對于是否為某一類型正確分類的樣本占總樣本的比例;靈敏度表示所有正例中被分類正確的比例,衡量分類器對正例的識別能力;特異度是指對“真陰性”情況作出正確預測的概率,衡量了模型對負例的識別能力;陽性預測值是被分類為正例的樣本中,實際為正例的比例;陰性預測值是被分類為負例的樣本中,實際為負例的比例;約登指數=靈敏度+特異度–1。損失值是用來度量訓練所得模型的輸出結果與真實結果差異的一個指標,與損失函數的選擇和迭代次數有關。
1.4 統計學方法
使用SPSS 24.0軟件對數據進行分析統計。根據數據特點選用正確率、靈敏度、特異度、陽性預測值、陰性預測值、約登指數、Kappa系數進行統計分析。檢驗水準α=0.05。
2 結果
2.1 ABC型智能分類測試結果
ABC 型智能分類結果如表 1 所示。在 32 張 C 型骨折識別中,1 張沒有識別結果,3 張錯識成胸椎 A 型,28 張識別正確。在 78 張腰椎 A 型骨折識別中,有 5 張錯識成胸椎 A 型,73 張識別正確。在 13 張腰椎 B 型骨折識別中,3 張錯識成腰椎 A 型,10 張識別正確。在 80 張胸椎 A 型骨折識別中,有 5 張沒有識別結果,3 張錯識別成腰椎 A 型,72 張識別正確。在 14 張胸椎 B 型骨折識別中,有 3 張錯識成胸椎 A 型,11 張識別正確。該分類的總體正確率為 89.4%,Kappa 系數為 0.849(P<0.001)。表 2 為根據該結果計算出的各類別的單類正確率、靈敏度、特異度、陽性預測值、陰性預測值和約登指數。成功識別示例見圖 4a、4b,錯誤識別示例見圖 4c、4d。圖 5為 ABC 型分類訓練過程中損失值與迭代次數的關系。



a. 正確識別 C 型骨折(矢狀位);b. 正確識別 A 型骨折(冠狀位);c. 將腰椎 A 型錯識為胸椎A型(矢狀位);d. 將胸椎 B 型錯識為腰椎 B 型(矢狀位)

2.2 A型亞型智能分類測試結果
A型亞型智能分類結果如表3所示,在12張A1型骨折中,有1張沒有識別結果,1張錯成A4型,10張正確識別。在13張A2型骨折中,有4張錯識成A4型,9張正確識別。在38張A3型骨折中,1張無識別結果,2張錯識成A4型,35張正確識別。在41張A4型骨折中,有3張沒有識別結果,1張錯識A3型,37張識別正確。該分類的總體正確率為87.5%,Kappa系數為0.817(P<0.001)。表4為根據該結果計算出的單類正確率、靈敏度、特異度、陽性預測值、陰性預測值和約登指數。圖6為成功識別與錯誤識別示例。圖7為A型亞型分類訓練過程中損失值與迭代次數的關系。



a. 正確識別A3型(冠狀位);b. 正確識別A3型(矢狀位);c. 正確識別A4型(冠狀位);d. 正確識別A4型(矢狀位);e. 正確識別A1、A4型(矢狀位);f. 將A1型錯識為A4型(矢狀位);g. 將A3型錯識為A4型(矢狀位);h. 將A4型錯識為A3型(矢狀位)

3 討論
本研究將機器視覺技術應用到人體胸腰椎骨折的智能分類中,對大量的CT圖片進行了篩選、預處理、重命名、樣本標注等工作,之后使用Faster RCNN對胸腰椎骨折樣本數據進行了學習和訓練,建立了胸腰椎骨折智能分類模型與方法,并應用人體胸腰椎骨折CT圖像進行測試實驗。
對ABC型骨折分類,分類模型的總體分類正確率為89.4%,Kappa系數為0.849。無論是胸椎還是腰椎,A型骨折的分類靈敏度和特異度都比較高,在90%以上。同時,與B型、C型相比,A型的無標識樣本也偏多,這可能是在A型數據集中無規律的陰影偏多導致的。并且,無標識的情況極少出現在冠狀面,主要集中出現在矢狀面。這是因為A3、A4型均為爆裂骨折,骨折形態較為豐富,導致分類難度增加。
C型的約登指數排第2位。在1004張訓練圖片和39張驗證圖片中,C型有188張,與A型相比,占比較小。C型被誤識的主要原因是在冠狀面C型與A型的相似度很高,只有在矢狀面時才能獲得表征C型骨節錯位的特征。不只是C型,B型在冠狀面也會有類似的問題。在相似程度相近的情況下,被誤識成A型主要是因為A型圖片占比較高,獲得了表征A型骨折的更全面的特征,這是數據集類型比例不均勻所導致的。C型能有較高的正確率是因為其為移位骨折在形態上與A、B差異較大,易于區分。
B型骨折在測試中的約登指數最低,介于0.7 到0.8之間,特異性達到了100%,這主要是用于訓練網絡的B型樣本過少,甚至少于C型,樣本比例之間不平衡,學習網絡模型對A型和C型骨折的特征學習得較好;其次是因為,B型往往是骨節的斷裂延伸到棘突部分,所以當棘突的骨折不明顯時,很容易將B型錯識別成A型。
對于A型亞型骨折分類,模型的總體正確率為87.5%,Kappa系數為0.817。A3和A4型的靈敏度比較高,均超過了90%。A3和A4識別的主要問題是互相誤識別。A3型骨折只有一個終板斷裂,A4上下終板均斷裂。區分A3和A4只能看是否累及2個終板,二者之間的差異較小,這是造成二者混淆的主要原因。除此之外,A3和A4均為爆裂骨折,骨折形態多樣多變。從某種程度上來說,556 例訓練樣本數據量不夠,這導致了A3和A4類型出現了無標識的情況。
A1、A2識別的靈敏度都偏低,主要原因是A1、A2的訓練集偏少。除了無標識的情況外,誤識的都為A3、A4型,這是由于在本數據集中A3、A4占比較大。本研究在選擇圖片時已經人為地平衡了類型比例,使A1和A2數量相近、A3和A4數量相近,這樣會在數據集樣本不夠的情況下保證一定的識別正確率。
從本研究結果可以看到B型、C型以及A1、A2兩種分型的靈敏度分別較A型以及A3、A4型低。由于這幾種骨折類型的病例較少,與其他類型的數據量相比,這幾種數據量不夠,學習網絡不能全面提取這些骨折類型的特征,導致這些類型的識別效果較差。深度學習對數據集質量有很高的要求,而醫療影像的獲得嚴重依賴于臨床病例,建立普適性的影像數據集難度大。本研究發現,數據集中不同類型的比例也會對實驗結果產生影響。根據臨床經驗,A1、A2型骨折的患者本身偏少且有些骨折病例特征不夠明顯,致使機器不易識別;A3、A4型數據更為集中,但骨折表現形式較多,導致學習網絡學習不到足夠全面的特征,從而無法正確識別。數據集種類的比例失衡會導致占比較小的類別被錯識成占比大的類別。臨床影像數據不足導致的數據集分布不均勻將對實驗結果產生影響,需要在進一步研究中增加樣本量,減少偏倚。
其次是訓練數據集的數量與迭代次數問題。本研究中的 ABC 分型采用了訓練集和驗證集共 1039 張,迭代學習 10000 次。在最終的訓練 10000 次迭代之前,先后采用了 3000 次和 6000 次的訓練,其識別結果損失較大難以達到預期效果,迭代次數 10000 次得到的效果較好。因此,可以得出結論,訓練集的大小直接影響智能分類識別結果。
綜上所述,本研究從當前脊柱骨折診斷面臨的問題出發,將最新的深度學習方法引入到骨折診斷分型中,通過學習網絡模型的訓練和驗證,最終構建了一種基于深度學習的胸腰椎骨折智能分類方法,能夠實現機器自主檢測骨折,并對骨折進行分類,有助于縮短人工診斷所需時間,有效促進優質醫療資源下沉、提高脊柱骨折早期診斷的準確性和一致性,從而提高脊柱骨折早期救治的療效。
這項研究仍存在一些局限性:在樣本數據量較小情況下,本研究提出的智能分類方法的分類精度不高且容易漏識、錯識,今后的研究將著力解決上述小樣本問題,并通過更改網絡結構和算法實現針對骨折形態的準確學習。