遷移學習在基于運動想象腦電信號(MI-EEG)的腦機接口(BCI)康復系統中具有潛在的研究價值和應用前景,而源域分類模型及遷移策略是直接影響目標域模型性能與遷移效率的兩個重要方面。為此,本文提出一種基于淺層視覺幾何組網絡(sVGG)的參數遷移學習(PTL)方法(PTL-sVGG)。首先,基于皮爾遜相關系數法對源域受試者進行篩選,并對優選的受試者MI-EEG數據進行短時傅里葉變換,獲得時頻譜圖(TFSI);然后,對視覺幾何組網絡-16(VGG-16)進行結構簡化與模塊化設計,并利用源域TFSI完成改進的sVGG模型預訓練;進而,設計基于模塊的凍結—微調遷移策略,快速尋找并凍結sVGG模型中貢獻最大的某個模塊,再基于目標受試者TFSI微調其余模塊,獲得目標域分類模型。基于公開腦電信號(EEG)數據庫進行實驗研究,PTL-sVGG取得的平均識別率和卡帕(Kappa)值分別為94.9%和0.898。結果表明,源域受試者優選有利于改善源域模型性能,基于模塊的遷移策略有效提升了遷移效率,實現了基于不同導聯數的數據庫跨受試者間模型參數的快速有效遷移。這將有利于減少BCI系統的校準時間,促進BCI技術在康復工程中的應用。
引用本文: 許冬芹, 李明愛. 基于淺層視覺幾何組網絡的參數遷移學習及其在運動想象分類中的應用. 生物醫學工程學雜志, 2022, 39(1): 28-38. doi: 10.7507/1001-5515.202108060 復制
引言
運動想象(motor imagery,MI)是腦機接口(brain-computer interface,BCI)的經典范式,通過檢測并識別受試者MI時的腦電圖(electroencephalographic,EEG)信號獲取受試者的運動意圖,在智能康復研究中得到了廣泛應用[1]。隨著深度學習技術的快速發展,深度卷積神經網絡(convolutional neural network,CNN)已成為運動想象腦電信號(MI-EEG)數據的一種先進模式分類模型[2-4]。然而,在MI-EEG信號采集過程中,受試者難以長時間集中注意力進行MI,且有一定比例的受試者存在“BCI盲”現象[5],致使高質量的數據量有限,不利于模型訓練,甚至阻礙了方法的普及與應用。而遷移學習技術為受試者間的數據或模型參數共享提供了一個有效途徑,將遷移學習與深度神經網絡相結合成為MI-EEG數據分類問題的一個研究熱點 [6-10]。
參數遷移學習方法主要通過共享源域和目標域之間的模型參數或先驗知識優化目標模型,具有普適性和易實現性,在MI-EEG數據識別中備受關注[11-13],特別是深度遷移學習方法展現出高效率和高識別率的優勢,因此受到越來越多的重視而被廣泛研究。源域優化有利于提升預訓練網絡的性能,并為目標網絡提供高質量的遷移參數。Zanini等 [14] 和He等 [15] 分別提出了黎曼對齊和歐式對齊方法,使來自不同受試者的EEG數據分布更加相似,提升了分類器在新受試者上的表現。Xu等[16]和Kostas等[17]分別利用黎曼對齊和歐式對齊方法調整不同受試者間的數據分布,然后使用對齊后的數據訓練源域模型,并將其參數遷移至目標模型,增強了目標模型的泛化能力。同時,遷移策略與目標模型的性能和遷移效率密切相關[13, 18-25]。Parvan等[18]在基于深度CNN遷移學習中提出了兩種遷移策略:一種是將所有卷積層的參數直接遷移至目標網絡并凍結,僅微調全連接層的基于CNN的遷移學習策略1(CNN + transfer learning 1,CNN-TL1);另一種是對卷積層進行逐層遷移,并利用目標受試者的部分數據對遷移的每層參數進行微調的基于CNN的遷移學習策略2(CNN + transfer learning 2,CNN-TL2),這兩種遷移策略均提高了目標模型對新受試者MI-EEG數據的分類效果。Zhao等[13]和Sakhavi等[19]利用源域中每名受試者分別訓練深度CNN,并將所有源域網絡的參數取平均后遷移到目標網絡作為初始化參數[13],或將源域網絡的參數直接遷移,進而集成多個不同初始化參數的網絡,構成最終的目標模型[19],再通過目標受試者對模型進行微調,降低了目標模型對參數初始化的依賴性。Wu等[20]和Roy等[21]將同一數據集的受試者依次作為目標受試者,而其余受試者作為源域以訓練模型,并將源域模型的所有參數遷移至目標模型,再利用目標受試者的部分EEG數據對遷移的參數進行微調,利用微調后的目標模型對目標受試者MI-EEG數據進行分類。Zhang等[22]提出了一種混合深度遷移神經網絡框架對MI-EEG信號進行解碼。將源域模型的卷積層遷移至目標模型,而對全連接層隨機初始化,并利用目標受試者的訓練數據微調卷積層參數,而重新訓練全連接層參數,以適應目標受試者的MI-EEG數據分類任務。?zdenizci等[23]提出了一種新的條件變分對抗自編碼器(adversarial conditional variational autoencoders,A-cVAE)對MI-EEG信號的時域和空域特征信息進行編碼和解碼。利用源域訓練A-cVAE,再將其參數遷移至目標模型,并保持編碼器的參數不變,微調解碼器的參數從而獲得高性能的目標模型。近年來,一些研究者還嘗試開展了基于通用神經網絡模型進行跨領域間遷移的研究[24-25]。Kant等[24]和Xu等[25]將基于分層圖像的大型可視化數據庫——ImageNet數據集預訓練的視覺幾何組網絡-16(visual geometry group network-16,VGG-16)模型參數遷移至目標模型以提升目標模型的效率。在參數遷移過程中,Kant等[24]將目標網絡的最后一個全連接層和輸出層替換,其余層的參數保持不變。在Xu等[25]提出的深度遷移CNN(deep transfer CNN,DT-CNN)框架中,凍結前11層的參數(僅替換輸出層),并微調剩余層的參數,但由于不同領域信號特征差異較大,目標模型的分類能力受限。由此可見,如何針對MI-EEG信號的非平穩性和個體差異特點,優化源域數據和模型參數,并從CNN的工作機制出發研究和制定高效的遷移策略,對改善目標模型性能和減少其訓練時間尤為必要。
為此,本文將研究基于淺層VGG-16(shallow VGG-16,sVGG)的參數遷移學習(parameter transfer learning,PTL)方法(PTL-sVGG)。擬通過源域優選,增強預訓練模型性能,并制定基于模塊的遷移策略,以實現模型參數遷移效果和效率的同時改善。PTL-sVGG的有效性將通過分類準確率、模型訓練時間和一致性檢驗在公開數據集上進行評估。本研究通過跨受試者間的模型參數遷移,減少BCI系統的校準時間,并提高目標受試者MI-EEG數據的識別精度,對BCI技術在康復工程中的應用具有積極的作用。
1 方法
本文基于sVGG提出了一種新的參數遷移學習方法,即PTL-sVGG,總體流程如圖1所示。首先,基于皮爾遜相關系數法從公開數據集中挑選EEG信號質量較高的受試者構成源域;然后,利用短時傅里葉變換(short-time Fourier transform,STFT)對原始信號進行時頻變換,得到時頻譜圖(time-frequency spectrogram images,TFSI);進而,對VGG-16網絡進行改進,確定網絡結構為sVGG,并使用源域TFSI訓練網絡;再制定模塊化的凍結—微調遷移策略,獲得目標網絡模型(target network model,T-model),以實現新受試者MI-EEG數據的識別。

1.1 源域的優化
源域數據質量對源域模型性能有著直接影響。而研究發現,約有15%~30%的用戶存在“BCI盲”問題,即該類用戶難以誘發出較強事件相關去同步/事件相關同步等特征信號,無法測量到相關節律,導致MI-EEG數據質量降低[26]。因此,挑選優質受試者的數據進行模型預訓練對受試者間的遷移至關重要。本文基于皮爾遜相關系數法計算每個受試者不同類別間的相關距離,以實現受試者優選,達到優化源域數據的目的。相關距離的計算公式如式(1)所示:
![]() |
其中,i, j = 1,2,,N,且 i ≠ j, N表示MI任務類別數, li和lj 分別表示某受試者第i類和第j類MI任務的平均EEG信號向量,Cov(li, lj)表示li與lj的協方差,Var(li)和Var(lj)分別為li和lj的方差。Φ(li, lj)∈[0,1],其值越大說明類別間的距離越遠。這里,li計算過程如下:對于任意一名受試者,先對第i類MI任務所有試驗中每個導聯的EEG信號求平均,再將所有導聯的平均EEG信號連接成向量li。lj的計算過程與li類似。所有受試者不同類別之間相關距離的計算方式如式(1)所示,選擇相關距離較大的部分受試者作為源域。
1.2 數據的準備
EEG信號不僅在時域上體現不同MI任務的特征,在頻域上也包含大量的信息。為了同時獲取原始MI-EEG信號的時域和頻域特征,本文利用STFT獲得了完整的TFSI。STFT(以符號STFT表示)的計算公式如式(2)所示:
![]() |
其中,t表示時間,ω表示角頻率,x(t)表示時長為2 s的EEG信號, h(t)表示窗函數, h(t ? τ)為h(t)的平移,τ表示窗口在時間軸上的位置。在STFT計算過程中,選擇漢寧窗,窗口大小設置為64,重疊點數設置為50。首先利用STFT對每導原始EEG信號進行時頻變換得到時—頻圖,再截取0~32 Hz頻帶對應的時—頻圖作為MI-EEG信號的時頻特征;進而,將C3、Cz和C4三導聯所得時—頻圖進行灰度化處理,并將其尺寸調整為224 × 224,即TFSI,以滿足sVGG網絡輸入的要求(224 × 224 × 3)。原始MI-EEG信號到TFSI的詳細轉換過程如圖2所示。

1.3 網絡模型的架構
VGG-16是牛津大學視覺幾何組和谷歌深度思維(DeepMind)研究人員開發的深度CNN,是一種強大的分類模型,尤其適用于圖像分類[27]。為此,本文選擇VGG-16網絡用于識別TFSI,并針對MI-EEG數據有限的情況, 降低模型深度,獲得一種淺層VGG,且通過實驗確定了網絡最優結構。根據卷積核的個數是否相等,將具有卷積結構的層劃分為5個模塊(block),第i個模塊表示為Bi,i = 1,2,,5,其具體結構和配置如圖3所示。相比較于原始的VGG-16,sVGG中靠近輸入的卷積層和靠近輸出的卷積層個數保持不變;第二個和第三個模塊的卷積層個數均減為1,并在第一個全連接層后加入隨機失活(dropout)層(dropout = 0.5)以防止過擬合;原來的輸出層替換為新的輸出層,其神經元數等于目標域MI任務的類別數,使用歸一化指數函數(softmax)分類器進行分類。其中,所有卷積核的大小為3 × 3,Bi(i = 1,2,
,5)中卷積核的數量依次為64、128、256、512和512,相對應的卷積層個數依次為2、1、1、3和3,激活函數為修正線性單元(rectified linear unit, ReLU)。另外,5個池化層為最大池化,大小為2 × 2,步長為2。

1.4 遷移策略的制定
Yosinski等[28]針對CNN中各個卷積層的可遷移性進行了大量的實驗研究,其結果表明淺層提取的是通用特征,適合遷移;深層提取的是特定特征,遷移效果不佳。據此,本文提出了一種基于模塊的遷移策略(block-based transfer strategy,BTS),以加強遷移學習效果。首先,將預訓練網絡模型(pre-trained network model,P-model)的全部參數遷移到與其配置相同的目標網絡;然后,依次凍結含有卷積層的5個模塊,利用目標域中的訓練數據微調其余參數,進而識別目標域的測試數據;接著,比較5次輸出的準確率大小,準確率最大時所對應的模塊即為對目標模型貢獻最大的模塊;最后,凍結貢獻最大的模塊及其前面模塊的參數,微調剩余參數。BTS的制定過程如圖4所示。其中, P-model和T-model分別如圖4中虛線框所示(僅展現了5個模塊),Bi 表示第i個模塊,F-Bi 表示凍結第i個模塊的T-model,i = 1,2,,5, Acci 表示目標域 MI 的分類準確率, wBi 表示P-model中第i個模塊的參數。

2 實驗
本文實驗的軟件環境包括Windows 10專業版64位操作系統(Microsoft,美國),開發工具Python 3.7、Anaconda、Spyder(Python Software Foundation,美國),深度學習框架Tensorflow(Google Inc.,美國),硬件平臺為惠普工作站(Z2 Tower G4,Hewlett-Packard Development Company,L.P.,美國)。
2.1 數據集的描述
數據集I是麻省理工學院計算生理學實驗室提供并發布在生理網(PhysioNet)(網址:https://www.physionet.org)上的一個免費公開使用的醫學研究數據庫,實驗選取PhysioNet中的MI數據集(PhysioNet EEG motor movement/imagery dataset,PhysioNet-MI)(網址:https://www.physionet.org/content/eegmmidb/1.0.0/),該數據集包含109名受試者的MI-EEG信號記錄,其編號為S001~S109,采集EEG信號的設備是BCI系統(BCI2000,New York State Department of Health–Wadsworth Center,美國),導聯按照國際10-10系統標準排列,64個導聯同時記錄受試者的MI-EEG信號。每名受試者進行14輪試驗:首先進行兩輪基線試驗(睜眼和閉眼),每輪持續1 min;然后進行4輪不同的試驗,重復3次,每輪持續2 min(兩類任務交替進行)。共9類任務(想象左手,想象右手,想象雙手,想象雙腳,以及實際的左手、右手、雙手、雙腳運動和休息),采樣頻率為160 Hz。數據采集時序如圖5所示。

數據集II是第四屆國際BCI大賽(BCI competition IV,BCI-IV)提供的一個免費公開使用的BCI研究數據庫(網址:http://www.bbci.de/competition/iv/),實驗選取BCI-IV中的2b數據集(BCI-IV dataset 2b,BCI-IV-2b)(網址: http://www.bbci.de/competition/iv/#dataset2b),該數據集包含 9名受試者,其編號為S1~S9,導聯排列標準按照國際10-20系統,C3、Cz和C4三個導聯同時采集MI-EEG信號。兩類MI任務(想象左手和想象右手),每名受試者提供5組試驗數據,每組含有120次試驗,每次試驗時長7.5 s,采樣頻率為250 Hz。
2.2 源域和目標域的確定
從PhysioNet-MI數據集的109名受試者中選取98名用于分類實驗研究(其余11名受試者的數據因為時間戳不對齊而無法使用),以優化確定源域。每名受試者提供45次試驗數據,每次試驗時長4 s,MI類別為想象左、右手。為了增強源域和目標域的相關性,從源域的64個導聯中選取了與目標域導聯位置相同的C3、Cz和C4導聯獲取的MI-EEG數據;接著計算98名受試者兩類MI任務之間的相關距離,同時,將其余11名受試者的相關距離直接設置為0,全部109名受試者的相關距離結果如圖6所示。從圖6中可以看出,不同的受試者內MI類別之間的相關距離差別很大。其中,受試者S044具有最大的相關距離0.994,說明其不同的MI任務易于區分,提供的數據質量高;受試者S025的相關距離最小為0.182,說明此受試者內不同MI任務之間的EEG信號差異較小,不易區分,數據質量低。因此,本文選擇相關距離最大的前30名受試者作為源域。

本文將BCI-IV-2b中的9名受試者依次作為目標域,選取每次試驗的持續時間在3.5~6.5 s之間的MI-EEG信號。本文分類實驗使用了前3組的試驗數據。
2.3 sVGG模型的確定
本文提出的sVGG網絡模型是基于VGG-16的改進,由于高質量的EEG數據有限,且在預處理階段已提取了MI-EEG數據的時頻特征,太深的網絡結構可能會造成資源的浪費。為此,本文主要減少了VGG-16卷積層的個數,優化了網絡的結構。具體的網絡結構優化指標包括兩點:一是通過預訓練過程進行選擇,即訓練集和測試集的準確率是否達到最高;二是參考經過遷移后的目標網絡對目標受試者的識別情況,即準確率的高低來最終確定。由于大量的訓練數據依然是訓練深度神經網絡的基礎,本文采用滑動窗口法對源域和目標域的數據分別進行增廣,其中,時間窗為2 s,步長為0.1 s。不同網絡結構對預訓練模型性能的影響如圖7所示,其中2-2-3-3-3中的每個數字從左到右依次表示B1,B2,,B5中卷積層的個數。當網絡結構為2-1-1-3-3時,預訓練過程的擬合度最好,即訓練集與測試集的準確率最接近且最高,而損失最低且下降最快,說明在訓練輪數(epoch)、數據質量和數量相同的情況下,網絡模型的結構對MI-EEG數據的識別率有較大影響。不同結構的網絡進行參數遷移后9名目標受試者的平均分類結果如圖8所示。從圖8中可以看出,當網絡結構為2-1-1-3-3時平均準確率最高,說明模型的結構達到最優。綜合以上分析,本文最終的網絡結構如圖3所示。由于sVGG模型的設計部分只為確定網絡結構,故本次實驗的具體遷移策略與文獻[25]相同,即凍結B1~B3,微調剩余參數得到圖7、圖8中的結果。


2.4 網絡的預訓練及遷移策略
預訓練模型的參數達到最優可以有效提升遷移效果,同時,恰當的遷移策略將進一步提高目標模型的性能。本研究首先使用來自源域的數據對sVGG進行預訓練;接著將預訓練模型的所有參數直接遷移至目標模型;然后凍結目標網絡的Bi,依次使用目標域中9名受試者80%的數據對剩余模塊的參數進行微調,20%的數據作為測試集,以準確率為性能指標。所有實驗結束后,每名受試者共得到5個結果(準確率),9名受試者的所有結果如表1所示。其中, F-Bi表示凍結第i個模塊的目標網絡模型,i = 1,2,,5 。從表1中可以看出凍結B4時所有受試者的準確率都達到最高,如表1中加粗字體所示,說明B4是sVGG提取通用特征到特定特征過渡的模塊,對目標模型的貢獻最大。因此,本文的遷移策略即為凍結目標網絡的B1~B4,微調B5及全連接層。

3 結果
本部分將從準確率、目標模型訓練時間及一致性檢驗等方面展示PTL-sVGG對MI-EEG數據的識別性能,并與最新方法進行比較。
3.1 準確率
為了驗證優選后的源域能夠提高預訓練模型的性能,從而為目標模型提供最優的網絡參數,本文根據皮爾遜相關系數法對PhysioNet-MI中98名受試者內MI任務之間的相關距離進行降序排列,前r名受試者記為Topr,r = 1,2,,98表示受試者的數量,將Top10、Top20、Top30、Top40和Top50名受試者預訓練模型后的遷移效果進行對比,結果如圖9所示。從圖9中可以看出隨著受試者人數的增加,目標域的平均準確率呈先上升后下降的趨勢,在人數為Top30時準確率達到最高。結果說明隨著源域訓練數據質量的下降,預訓練模型的參數對目標模型的輔助不斷降低,從而證明優選源域對目標模型性能的提高至關重要。

另外,為了體現BTS在遷移策略上的優勢,與2種不同的遷移策略進行了對比,準確率如圖10所示。其中,D-sVGG表示直接使用sVGG網絡模型(從零開始訓練)對9名目標受試者MI-EEG數據進行識別,設為基線方法;FA-sVGG表示凍結目標模型所有參數,除了最后一個全連接層和輸出層,即文獻[24]所提遷移策略;FB1~3-sVGG表示凍結前三個模塊,微調剩余的參數,即文獻[25]所提的遷移策略。從圖10中的結果可以看出任何一名目標受試者在使用BTS時的準確率比使用對比文獻所提的遷移策略和基線方法都要高。其中,對S4而言,PTL-sVGG的性能表現最佳為97.51%,高于D-sVGG 4.37%。此外,平均準確率高出FB1~3-sVGG 1.33%,比FA-sVGG高出2%,比D-sVGG高出2.68%。因此,圖10的結果表明了BTS可以提高目標模型的性能,提升目標受試者MI-EEG數據的分類準確率,顯示了PTL-sVGG遷移策略的優越性。

PTL-sVGG與最新相關文獻在同一目標域上的研究結果對比如表2所示。PTL-sVGG的準確率采用了兩種計算方式,一種是與文獻[20]、文獻[25]的計算方式相同,為10次結果的平均;另一種是與文獻[8]的計算方式相同,為10折交叉驗證的結果。相比較于對比文獻, PTL-sVGG所獲得的平均準確率高于文獻[20]和文獻[25],與文獻[8]相當。這是因為文獻[25]將基于ImageNet數據集預訓練的VGG-16作為預訓練模型,將與其具有相同結構與配置的網絡作為目標網絡,僅輸出層被替換,由于源域(ImageNet)與目標域(BCI-IV-2b)的相關性較低,從預訓練模型中遷移的參數對目標模型的貢獻具有一定的局限性。文獻[20]提出的并行多尺度濾波器組CNN(parallel multiscale filter bank CNN,PMFB-CNN)是基于同一個數據集不同受試者之間的遷移,源域與目標域的相關性較高,分類準確率比文獻[25]提升了10.2%。文獻[8]提出的基于深度CNN和受試者依賴(subject-dependent with deep CNN,SD-CNN)訓練策略利用實例遷移方法從其他受試者的訓練數據中選取部分數據加入目標受試者中,并對所選數據進行加權,增加了目標域訓練樣本數量的同時減少了數據分布的差異,取得了較高的結果。本文所提方法結合了參數遷移學習與深度學習,提升了源域的數據質量,增強了預訓練模型的性能,從而為目標模型提供了最優參數,提高了目標受試者MI分類準確率,充分突顯了PTL-sVGG參數遷移的有效性。

3.2 目標模型訓練時間
在機器學習中,模型的訓練時間一直是檢驗模型性能的重要指標之一,PTL-sVGG、D-sVGG、FB1~3-sVGG和FA-sVGG在目標受試者上的模型訓練時間對比如圖11所示。從圖11中可見,9名目標受試者的目標模型訓練時間有一定差異,但主要由目標模型決定。顯然,PTL-sVGG的訓練時間相對D-sVGG和FB1~3-sVGG兩個模型具有明顯優勢。具體地說,D-sVGG的訓練時間比PTL-sVGG長1~3倍。這是因為在訓練過程中,使用隨機初始化參數訓練sVGG需要花費較長的時間,即在訓練過程中需要不斷地更新參數;另外,從零開始訓練sVGG要針對具體任務調節/優化超參數才能達到較好的性能,這些過程相當耗時。對比FB1~3-sVGG,其需要微調的參數多于PTL-sVGG,故訓練時間長于PTL-sVGG。同時,由于FA-sVGG僅對最后一個全連接層和輸出層進行微調,凍結的參數最多,因此,其模型訓練消耗的時間比PTL-sVGG更短。然而,結合圖10和圖11可知,FA-sVGG雖然具有模型訓練時間上的優勢,其準確率卻低于PTL-sVGG。綜上,本文的目標模型能夠從預訓練網絡中遷移最優超參數,且前4個模塊的參數已不用更新,同時保留了提取特定特征的模塊,僅需少量目標受試者的訓練數據微調其余參數即可保證目標模型的性能快速穩定。因此,本文提出的方法在保證高準確率的同時,加快了目標受試者的訓練過程,減少了時間的消耗,顯示了PTL-sVGG方法的高效性。

3.3 Kappa值
Kappa值(k)常被作為一致性檢驗的指標,其計算公式如式(3)所示[24]。一般情況下,Kappa值的取值范圍為[? 1, 1],其值越接近1表示一致性越好。
![]() |
其中,Acc表示準確率, RAcc為隨機準確率,其計算公式如式(4)所示:
![]() |
其中,Q 是MI任務類別總數。在本文中,Q = 2。根據式(3)計算PTL-sVGG的Kappa值時, Acc為10次結果的平均。PTL-sVGG與最新相關研究在同一目標域上的Kappa值如表3所示。從表3中可見,9名受試者均取得了較高的Kappa值,S4獲得最高值0.95,S3獲得最低值0.868,平均Kappa值為0.898,體現了目標模型具有較強的泛化能力。另外,9名目標受試者的Kappa值皆高于對比文獻,有力證明PTL-sVGG具有較好的一致性。

4 討論
本文旨在基于皮爾遜相關系數法優選源域,加強預訓練模型的分類性能,并根據CNN模型的工作機制及不同模塊的貢獻程度制定模塊化的遷移策略,實現遷移參數的最優化和快速遷移的目的。另外,基于PhysioNet-MI和BCI-IV-2b兩個數據集對PTL-sVGG進行性能評估,并與最新研究結果進行比較,如表2和表3所示。PTL-sVGG取得94.9%的平均識別率以及0.898的平均Kappa值,皆高于對比文獻,特別是對于對比文獻中效果不佳的受試者S2和S3,其識別率與Kappa值均得到大幅提升,證實PTL-sVGG有利于增強目標域模型對不同受試者的普適性。
為進一步證明源域選擇對模型參數遷移效果的影響,將基于皮爾遜相關系數法優選的前30名(Top30)受試者和隨機選擇的30名受試者分別作為源域進行實驗,其所得目標域模型的識別精度如圖12所示。顯然,對9名目標受試者,利用Top30的源域受試者相對隨機選擇的30名受試者訓練的模型經參數遷移后識別精度均有提高。綜合圖9和圖12,彰顯了PTL-sVGG進行源域選擇的必要性。

圖10顯示了參數遷移策略對目標模型性能提升的重要作用。FA-sVGG的總體結果優于D-sVGG,說明該方法是有效的,但是對個別受試者,如S1、S3和S8,其準確率低于D-sVGG,即遷移后的識別率低于未使用遷移學習的結果,可能的原因是FA-sVGG凍結了提取特定特征的卷積層,而不同受試者的特定特征可能有別,S1、S3和S8的特定特征與源域差別較大,導致目標模型不能學習到新的知識而產生了負遷移。PTL-sVGG和FB1~3-sVGG通過微調提取特定特征的卷積層參數避免了負遷移的發生,使得S1、S3和S8的識別率皆優于FA-sVGG和D-sVGG。此外,為了驗證參數遷移策略對目標模型訓練時間的影響,本文在相同的環境配置下,對不同的遷移策略進行了實驗,結果如圖11所示。對比所有遷移策略訓練目標模型的時間消耗發現FA-sVGG明顯少于其它方法,主要原因是因為sVGG網絡的參數大多分布在兩個全連接層,FA-sVGG的遷移策略需要微調的參數相對最少,其模型訓練時間最短,而PTL-sVGG雖不及FA-sVGG,但相對于D-sVGG與FB1~3-sVGG仍呈現顯著優勢。結合圖10和圖11, PTL-sVGG遷移策略對目標模型識別精度和訓練快速性的提升起到了關鍵作用。
必須指出的是,PTL-sVGG在預訓練模型時,僅僅從源域的角度出發,選擇高質量數據作為預訓練數據,雖然提高了源域模型的性能,但沒有針對目標域的具體任務或相關程度進行優選,因此,優選源域的方法還需要進一步研究。此外,模型的預訓練消耗了大量時間,下一步工作將考慮利用已有的基于ImageNet預訓練的VGG-16網絡作為預訓練模型的初始化參數或結構的一部分,減少模型的預訓練時間,提高PTL-sVGG的整體效率。
5 結論
本文針對如何利用已有的MI-EEG數據輔助目標受試者進行分類的問題,提出了一種基于sVGG的參數遷移學習方法。該方法主要基于皮爾遜相關系數法優化源域,通過選擇不同MI任務類別之間距離較大的受試者,加大整個源域內不同MI任務類別之間的距離,使預訓練模型的參數最優;并將CNN提取特征時的特性與凍結—微調遷移策略相結合,設計了對目標模型貢獻最大的BTS。目前研究的重點集中在提高目標模型的性能上,所提出的PTL-sVGG方法通過優化源域MI-EEG數據質量,訓練高性能的源域模型,再經過BTS將源域模型的參數遷移至目標模型,實現了對目標模型的優化。實驗結果表明,PTL-sVGG方法提高了目標受試者MI-EEG數據的分類準確率和模型的泛化能力,減少了單個受試者的目標模型訓練時間,加快了訓練進程。
本文簡單呈現了基于網絡的參數遷移學習在MI-EEG數據識別的應用,未充分考慮遷移全連接層參數對目標域的影響,遷移策略的制定有待更深入的研究。接下來,可重點研究利用遷移學習技術提高目標模型在新MI任務中的快速適應能力。本文提出的源域優選方法和BTS提高了目標模型的性能,為遷移學習在MI-EEG數據分類中的應用奠定了堅實的基礎,將促進MI-EEG數據識別與遷移學習技術及深度學習更加廣泛地融合。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:許冬芹主要負責實驗流程、平臺搭建、算法程序設計、數據記錄與分析以及論文編寫;李明愛主要負責項目主持、算法程序設計、提供實驗指導、數據分析指導以及論文審閱修訂。
倫理聲明:本論文所用實驗數據均來自公開數據庫,不涉及倫理問題。
引言
運動想象(motor imagery,MI)是腦機接口(brain-computer interface,BCI)的經典范式,通過檢測并識別受試者MI時的腦電圖(electroencephalographic,EEG)信號獲取受試者的運動意圖,在智能康復研究中得到了廣泛應用[1]。隨著深度學習技術的快速發展,深度卷積神經網絡(convolutional neural network,CNN)已成為運動想象腦電信號(MI-EEG)數據的一種先進模式分類模型[2-4]。然而,在MI-EEG信號采集過程中,受試者難以長時間集中注意力進行MI,且有一定比例的受試者存在“BCI盲”現象[5],致使高質量的數據量有限,不利于模型訓練,甚至阻礙了方法的普及與應用。而遷移學習技術為受試者間的數據或模型參數共享提供了一個有效途徑,將遷移學習與深度神經網絡相結合成為MI-EEG數據分類問題的一個研究熱點 [6-10]。
參數遷移學習方法主要通過共享源域和目標域之間的模型參數或先驗知識優化目標模型,具有普適性和易實現性,在MI-EEG數據識別中備受關注[11-13],特別是深度遷移學習方法展現出高效率和高識別率的優勢,因此受到越來越多的重視而被廣泛研究。源域優化有利于提升預訓練網絡的性能,并為目標網絡提供高質量的遷移參數。Zanini等 [14] 和He等 [15] 分別提出了黎曼對齊和歐式對齊方法,使來自不同受試者的EEG數據分布更加相似,提升了分類器在新受試者上的表現。Xu等[16]和Kostas等[17]分別利用黎曼對齊和歐式對齊方法調整不同受試者間的數據分布,然后使用對齊后的數據訓練源域模型,并將其參數遷移至目標模型,增強了目標模型的泛化能力。同時,遷移策略與目標模型的性能和遷移效率密切相關[13, 18-25]。Parvan等[18]在基于深度CNN遷移學習中提出了兩種遷移策略:一種是將所有卷積層的參數直接遷移至目標網絡并凍結,僅微調全連接層的基于CNN的遷移學習策略1(CNN + transfer learning 1,CNN-TL1);另一種是對卷積層進行逐層遷移,并利用目標受試者的部分數據對遷移的每層參數進行微調的基于CNN的遷移學習策略2(CNN + transfer learning 2,CNN-TL2),這兩種遷移策略均提高了目標模型對新受試者MI-EEG數據的分類效果。Zhao等[13]和Sakhavi等[19]利用源域中每名受試者分別訓練深度CNN,并將所有源域網絡的參數取平均后遷移到目標網絡作為初始化參數[13],或將源域網絡的參數直接遷移,進而集成多個不同初始化參數的網絡,構成最終的目標模型[19],再通過目標受試者對模型進行微調,降低了目標模型對參數初始化的依賴性。Wu等[20]和Roy等[21]將同一數據集的受試者依次作為目標受試者,而其余受試者作為源域以訓練模型,并將源域模型的所有參數遷移至目標模型,再利用目標受試者的部分EEG數據對遷移的參數進行微調,利用微調后的目標模型對目標受試者MI-EEG數據進行分類。Zhang等[22]提出了一種混合深度遷移神經網絡框架對MI-EEG信號進行解碼。將源域模型的卷積層遷移至目標模型,而對全連接層隨機初始化,并利用目標受試者的訓練數據微調卷積層參數,而重新訓練全連接層參數,以適應目標受試者的MI-EEG數據分類任務。?zdenizci等[23]提出了一種新的條件變分對抗自編碼器(adversarial conditional variational autoencoders,A-cVAE)對MI-EEG信號的時域和空域特征信息進行編碼和解碼。利用源域訓練A-cVAE,再將其參數遷移至目標模型,并保持編碼器的參數不變,微調解碼器的參數從而獲得高性能的目標模型。近年來,一些研究者還嘗試開展了基于通用神經網絡模型進行跨領域間遷移的研究[24-25]。Kant等[24]和Xu等[25]將基于分層圖像的大型可視化數據庫——ImageNet數據集預訓練的視覺幾何組網絡-16(visual geometry group network-16,VGG-16)模型參數遷移至目標模型以提升目標模型的效率。在參數遷移過程中,Kant等[24]將目標網絡的最后一個全連接層和輸出層替換,其余層的參數保持不變。在Xu等[25]提出的深度遷移CNN(deep transfer CNN,DT-CNN)框架中,凍結前11層的參數(僅替換輸出層),并微調剩余層的參數,但由于不同領域信號特征差異較大,目標模型的分類能力受限。由此可見,如何針對MI-EEG信號的非平穩性和個體差異特點,優化源域數據和模型參數,并從CNN的工作機制出發研究和制定高效的遷移策略,對改善目標模型性能和減少其訓練時間尤為必要。
為此,本文將研究基于淺層VGG-16(shallow VGG-16,sVGG)的參數遷移學習(parameter transfer learning,PTL)方法(PTL-sVGG)。擬通過源域優選,增強預訓練模型性能,并制定基于模塊的遷移策略,以實現模型參數遷移效果和效率的同時改善。PTL-sVGG的有效性將通過分類準確率、模型訓練時間和一致性檢驗在公開數據集上進行評估。本研究通過跨受試者間的模型參數遷移,減少BCI系統的校準時間,并提高目標受試者MI-EEG數據的識別精度,對BCI技術在康復工程中的應用具有積極的作用。
1 方法
本文基于sVGG提出了一種新的參數遷移學習方法,即PTL-sVGG,總體流程如圖1所示。首先,基于皮爾遜相關系數法從公開數據集中挑選EEG信號質量較高的受試者構成源域;然后,利用短時傅里葉變換(short-time Fourier transform,STFT)對原始信號進行時頻變換,得到時頻譜圖(time-frequency spectrogram images,TFSI);進而,對VGG-16網絡進行改進,確定網絡結構為sVGG,并使用源域TFSI訓練網絡;再制定模塊化的凍結—微調遷移策略,獲得目標網絡模型(target network model,T-model),以實現新受試者MI-EEG數據的識別。

1.1 源域的優化
源域數據質量對源域模型性能有著直接影響。而研究發現,約有15%~30%的用戶存在“BCI盲”問題,即該類用戶難以誘發出較強事件相關去同步/事件相關同步等特征信號,無法測量到相關節律,導致MI-EEG數據質量降低[26]。因此,挑選優質受試者的數據進行模型預訓練對受試者間的遷移至關重要。本文基于皮爾遜相關系數法計算每個受試者不同類別間的相關距離,以實現受試者優選,達到優化源域數據的目的。相關距離的計算公式如式(1)所示:
![]() |
其中,i, j = 1,2,,N,且 i ≠ j, N表示MI任務類別數, li和lj 分別表示某受試者第i類和第j類MI任務的平均EEG信號向量,Cov(li, lj)表示li與lj的協方差,Var(li)和Var(lj)分別為li和lj的方差。Φ(li, lj)∈[0,1],其值越大說明類別間的距離越遠。這里,li計算過程如下:對于任意一名受試者,先對第i類MI任務所有試驗中每個導聯的EEG信號求平均,再將所有導聯的平均EEG信號連接成向量li。lj的計算過程與li類似。所有受試者不同類別之間相關距離的計算方式如式(1)所示,選擇相關距離較大的部分受試者作為源域。
1.2 數據的準備
EEG信號不僅在時域上體現不同MI任務的特征,在頻域上也包含大量的信息。為了同時獲取原始MI-EEG信號的時域和頻域特征,本文利用STFT獲得了完整的TFSI。STFT(以符號STFT表示)的計算公式如式(2)所示:
![]() |
其中,t表示時間,ω表示角頻率,x(t)表示時長為2 s的EEG信號, h(t)表示窗函數, h(t ? τ)為h(t)的平移,τ表示窗口在時間軸上的位置。在STFT計算過程中,選擇漢寧窗,窗口大小設置為64,重疊點數設置為50。首先利用STFT對每導原始EEG信號進行時頻變換得到時—頻圖,再截取0~32 Hz頻帶對應的時—頻圖作為MI-EEG信號的時頻特征;進而,將C3、Cz和C4三導聯所得時—頻圖進行灰度化處理,并將其尺寸調整為224 × 224,即TFSI,以滿足sVGG網絡輸入的要求(224 × 224 × 3)。原始MI-EEG信號到TFSI的詳細轉換過程如圖2所示。

1.3 網絡模型的架構
VGG-16是牛津大學視覺幾何組和谷歌深度思維(DeepMind)研究人員開發的深度CNN,是一種強大的分類模型,尤其適用于圖像分類[27]。為此,本文選擇VGG-16網絡用于識別TFSI,并針對MI-EEG數據有限的情況, 降低模型深度,獲得一種淺層VGG,且通過實驗確定了網絡最優結構。根據卷積核的個數是否相等,將具有卷積結構的層劃分為5個模塊(block),第i個模塊表示為Bi,i = 1,2,,5,其具體結構和配置如圖3所示。相比較于原始的VGG-16,sVGG中靠近輸入的卷積層和靠近輸出的卷積層個數保持不變;第二個和第三個模塊的卷積層個數均減為1,并在第一個全連接層后加入隨機失活(dropout)層(dropout = 0.5)以防止過擬合;原來的輸出層替換為新的輸出層,其神經元數等于目標域MI任務的類別數,使用歸一化指數函數(softmax)分類器進行分類。其中,所有卷積核的大小為3 × 3,Bi(i = 1,2,
,5)中卷積核的數量依次為64、128、256、512和512,相對應的卷積層個數依次為2、1、1、3和3,激活函數為修正線性單元(rectified linear unit, ReLU)。另外,5個池化層為最大池化,大小為2 × 2,步長為2。

1.4 遷移策略的制定
Yosinski等[28]針對CNN中各個卷積層的可遷移性進行了大量的實驗研究,其結果表明淺層提取的是通用特征,適合遷移;深層提取的是特定特征,遷移效果不佳。據此,本文提出了一種基于模塊的遷移策略(block-based transfer strategy,BTS),以加強遷移學習效果。首先,將預訓練網絡模型(pre-trained network model,P-model)的全部參數遷移到與其配置相同的目標網絡;然后,依次凍結含有卷積層的5個模塊,利用目標域中的訓練數據微調其余參數,進而識別目標域的測試數據;接著,比較5次輸出的準確率大小,準確率最大時所對應的模塊即為對目標模型貢獻最大的模塊;最后,凍結貢獻最大的模塊及其前面模塊的參數,微調剩余參數。BTS的制定過程如圖4所示。其中, P-model和T-model分別如圖4中虛線框所示(僅展現了5個模塊),Bi 表示第i個模塊,F-Bi 表示凍結第i個模塊的T-model,i = 1,2,,5, Acci 表示目標域 MI 的分類準確率, wBi 表示P-model中第i個模塊的參數。

2 實驗
本文實驗的軟件環境包括Windows 10專業版64位操作系統(Microsoft,美國),開發工具Python 3.7、Anaconda、Spyder(Python Software Foundation,美國),深度學習框架Tensorflow(Google Inc.,美國),硬件平臺為惠普工作站(Z2 Tower G4,Hewlett-Packard Development Company,L.P.,美國)。
2.1 數據集的描述
數據集I是麻省理工學院計算生理學實驗室提供并發布在生理網(PhysioNet)(網址:https://www.physionet.org)上的一個免費公開使用的醫學研究數據庫,實驗選取PhysioNet中的MI數據集(PhysioNet EEG motor movement/imagery dataset,PhysioNet-MI)(網址:https://www.physionet.org/content/eegmmidb/1.0.0/),該數據集包含109名受試者的MI-EEG信號記錄,其編號為S001~S109,采集EEG信號的設備是BCI系統(BCI2000,New York State Department of Health–Wadsworth Center,美國),導聯按照國際10-10系統標準排列,64個導聯同時記錄受試者的MI-EEG信號。每名受試者進行14輪試驗:首先進行兩輪基線試驗(睜眼和閉眼),每輪持續1 min;然后進行4輪不同的試驗,重復3次,每輪持續2 min(兩類任務交替進行)。共9類任務(想象左手,想象右手,想象雙手,想象雙腳,以及實際的左手、右手、雙手、雙腳運動和休息),采樣頻率為160 Hz。數據采集時序如圖5所示。

數據集II是第四屆國際BCI大賽(BCI competition IV,BCI-IV)提供的一個免費公開使用的BCI研究數據庫(網址:http://www.bbci.de/competition/iv/),實驗選取BCI-IV中的2b數據集(BCI-IV dataset 2b,BCI-IV-2b)(網址: http://www.bbci.de/competition/iv/#dataset2b),該數據集包含 9名受試者,其編號為S1~S9,導聯排列標準按照國際10-20系統,C3、Cz和C4三個導聯同時采集MI-EEG信號。兩類MI任務(想象左手和想象右手),每名受試者提供5組試驗數據,每組含有120次試驗,每次試驗時長7.5 s,采樣頻率為250 Hz。
2.2 源域和目標域的確定
從PhysioNet-MI數據集的109名受試者中選取98名用于分類實驗研究(其余11名受試者的數據因為時間戳不對齊而無法使用),以優化確定源域。每名受試者提供45次試驗數據,每次試驗時長4 s,MI類別為想象左、右手。為了增強源域和目標域的相關性,從源域的64個導聯中選取了與目標域導聯位置相同的C3、Cz和C4導聯獲取的MI-EEG數據;接著計算98名受試者兩類MI任務之間的相關距離,同時,將其余11名受試者的相關距離直接設置為0,全部109名受試者的相關距離結果如圖6所示。從圖6中可以看出,不同的受試者內MI類別之間的相關距離差別很大。其中,受試者S044具有最大的相關距離0.994,說明其不同的MI任務易于區分,提供的數據質量高;受試者S025的相關距離最小為0.182,說明此受試者內不同MI任務之間的EEG信號差異較小,不易區分,數據質量低。因此,本文選擇相關距離最大的前30名受試者作為源域。

本文將BCI-IV-2b中的9名受試者依次作為目標域,選取每次試驗的持續時間在3.5~6.5 s之間的MI-EEG信號。本文分類實驗使用了前3組的試驗數據。
2.3 sVGG模型的確定
本文提出的sVGG網絡模型是基于VGG-16的改進,由于高質量的EEG數據有限,且在預處理階段已提取了MI-EEG數據的時頻特征,太深的網絡結構可能會造成資源的浪費。為此,本文主要減少了VGG-16卷積層的個數,優化了網絡的結構。具體的網絡結構優化指標包括兩點:一是通過預訓練過程進行選擇,即訓練集和測試集的準確率是否達到最高;二是參考經過遷移后的目標網絡對目標受試者的識別情況,即準確率的高低來最終確定。由于大量的訓練數據依然是訓練深度神經網絡的基礎,本文采用滑動窗口法對源域和目標域的數據分別進行增廣,其中,時間窗為2 s,步長為0.1 s。不同網絡結構對預訓練模型性能的影響如圖7所示,其中2-2-3-3-3中的每個數字從左到右依次表示B1,B2,,B5中卷積層的個數。當網絡結構為2-1-1-3-3時,預訓練過程的擬合度最好,即訓練集與測試集的準確率最接近且最高,而損失最低且下降最快,說明在訓練輪數(epoch)、數據質量和數量相同的情況下,網絡模型的結構對MI-EEG數據的識別率有較大影響。不同結構的網絡進行參數遷移后9名目標受試者的平均分類結果如圖8所示。從圖8中可以看出,當網絡結構為2-1-1-3-3時平均準確率最高,說明模型的結構達到最優。綜合以上分析,本文最終的網絡結構如圖3所示。由于sVGG模型的設計部分只為確定網絡結構,故本次實驗的具體遷移策略與文獻[25]相同,即凍結B1~B3,微調剩余參數得到圖7、圖8中的結果。


2.4 網絡的預訓練及遷移策略
預訓練模型的參數達到最優可以有效提升遷移效果,同時,恰當的遷移策略將進一步提高目標模型的性能。本研究首先使用來自源域的數據對sVGG進行預訓練;接著將預訓練模型的所有參數直接遷移至目標模型;然后凍結目標網絡的Bi,依次使用目標域中9名受試者80%的數據對剩余模塊的參數進行微調,20%的數據作為測試集,以準確率為性能指標。所有實驗結束后,每名受試者共得到5個結果(準確率),9名受試者的所有結果如表1所示。其中, F-Bi表示凍結第i個模塊的目標網絡模型,i = 1,2,,5 。從表1中可以看出凍結B4時所有受試者的準確率都達到最高,如表1中加粗字體所示,說明B4是sVGG提取通用特征到特定特征過渡的模塊,對目標模型的貢獻最大。因此,本文的遷移策略即為凍結目標網絡的B1~B4,微調B5及全連接層。

3 結果
本部分將從準確率、目標模型訓練時間及一致性檢驗等方面展示PTL-sVGG對MI-EEG數據的識別性能,并與最新方法進行比較。
3.1 準確率
為了驗證優選后的源域能夠提高預訓練模型的性能,從而為目標模型提供最優的網絡參數,本文根據皮爾遜相關系數法對PhysioNet-MI中98名受試者內MI任務之間的相關距離進行降序排列,前r名受試者記為Topr,r = 1,2,,98表示受試者的數量,將Top10、Top20、Top30、Top40和Top50名受試者預訓練模型后的遷移效果進行對比,結果如圖9所示。從圖9中可以看出隨著受試者人數的增加,目標域的平均準確率呈先上升后下降的趨勢,在人數為Top30時準確率達到最高。結果說明隨著源域訓練數據質量的下降,預訓練模型的參數對目標模型的輔助不斷降低,從而證明優選源域對目標模型性能的提高至關重要。

另外,為了體現BTS在遷移策略上的優勢,與2種不同的遷移策略進行了對比,準確率如圖10所示。其中,D-sVGG表示直接使用sVGG網絡模型(從零開始訓練)對9名目標受試者MI-EEG數據進行識別,設為基線方法;FA-sVGG表示凍結目標模型所有參數,除了最后一個全連接層和輸出層,即文獻[24]所提遷移策略;FB1~3-sVGG表示凍結前三個模塊,微調剩余的參數,即文獻[25]所提的遷移策略。從圖10中的結果可以看出任何一名目標受試者在使用BTS時的準確率比使用對比文獻所提的遷移策略和基線方法都要高。其中,對S4而言,PTL-sVGG的性能表現最佳為97.51%,高于D-sVGG 4.37%。此外,平均準確率高出FB1~3-sVGG 1.33%,比FA-sVGG高出2%,比D-sVGG高出2.68%。因此,圖10的結果表明了BTS可以提高目標模型的性能,提升目標受試者MI-EEG數據的分類準確率,顯示了PTL-sVGG遷移策略的優越性。

PTL-sVGG與最新相關文獻在同一目標域上的研究結果對比如表2所示。PTL-sVGG的準確率采用了兩種計算方式,一種是與文獻[20]、文獻[25]的計算方式相同,為10次結果的平均;另一種是與文獻[8]的計算方式相同,為10折交叉驗證的結果。相比較于對比文獻, PTL-sVGG所獲得的平均準確率高于文獻[20]和文獻[25],與文獻[8]相當。這是因為文獻[25]將基于ImageNet數據集預訓練的VGG-16作為預訓練模型,將與其具有相同結構與配置的網絡作為目標網絡,僅輸出層被替換,由于源域(ImageNet)與目標域(BCI-IV-2b)的相關性較低,從預訓練模型中遷移的參數對目標模型的貢獻具有一定的局限性。文獻[20]提出的并行多尺度濾波器組CNN(parallel multiscale filter bank CNN,PMFB-CNN)是基于同一個數據集不同受試者之間的遷移,源域與目標域的相關性較高,分類準確率比文獻[25]提升了10.2%。文獻[8]提出的基于深度CNN和受試者依賴(subject-dependent with deep CNN,SD-CNN)訓練策略利用實例遷移方法從其他受試者的訓練數據中選取部分數據加入目標受試者中,并對所選數據進行加權,增加了目標域訓練樣本數量的同時減少了數據分布的差異,取得了較高的結果。本文所提方法結合了參數遷移學習與深度學習,提升了源域的數據質量,增強了預訓練模型的性能,從而為目標模型提供了最優參數,提高了目標受試者MI分類準確率,充分突顯了PTL-sVGG參數遷移的有效性。

3.2 目標模型訓練時間
在機器學習中,模型的訓練時間一直是檢驗模型性能的重要指標之一,PTL-sVGG、D-sVGG、FB1~3-sVGG和FA-sVGG在目標受試者上的模型訓練時間對比如圖11所示。從圖11中可見,9名目標受試者的目標模型訓練時間有一定差異,但主要由目標模型決定。顯然,PTL-sVGG的訓練時間相對D-sVGG和FB1~3-sVGG兩個模型具有明顯優勢。具體地說,D-sVGG的訓練時間比PTL-sVGG長1~3倍。這是因為在訓練過程中,使用隨機初始化參數訓練sVGG需要花費較長的時間,即在訓練過程中需要不斷地更新參數;另外,從零開始訓練sVGG要針對具體任務調節/優化超參數才能達到較好的性能,這些過程相當耗時。對比FB1~3-sVGG,其需要微調的參數多于PTL-sVGG,故訓練時間長于PTL-sVGG。同時,由于FA-sVGG僅對最后一個全連接層和輸出層進行微調,凍結的參數最多,因此,其模型訓練消耗的時間比PTL-sVGG更短。然而,結合圖10和圖11可知,FA-sVGG雖然具有模型訓練時間上的優勢,其準確率卻低于PTL-sVGG。綜上,本文的目標模型能夠從預訓練網絡中遷移最優超參數,且前4個模塊的參數已不用更新,同時保留了提取特定特征的模塊,僅需少量目標受試者的訓練數據微調其余參數即可保證目標模型的性能快速穩定。因此,本文提出的方法在保證高準確率的同時,加快了目標受試者的訓練過程,減少了時間的消耗,顯示了PTL-sVGG方法的高效性。

3.3 Kappa值
Kappa值(k)常被作為一致性檢驗的指標,其計算公式如式(3)所示[24]。一般情況下,Kappa值的取值范圍為[? 1, 1],其值越接近1表示一致性越好。
![]() |
其中,Acc表示準確率, RAcc為隨機準確率,其計算公式如式(4)所示:
![]() |
其中,Q 是MI任務類別總數。在本文中,Q = 2。根據式(3)計算PTL-sVGG的Kappa值時, Acc為10次結果的平均。PTL-sVGG與最新相關研究在同一目標域上的Kappa值如表3所示。從表3中可見,9名受試者均取得了較高的Kappa值,S4獲得最高值0.95,S3獲得最低值0.868,平均Kappa值為0.898,體現了目標模型具有較強的泛化能力。另外,9名目標受試者的Kappa值皆高于對比文獻,有力證明PTL-sVGG具有較好的一致性。

4 討論
本文旨在基于皮爾遜相關系數法優選源域,加強預訓練模型的分類性能,并根據CNN模型的工作機制及不同模塊的貢獻程度制定模塊化的遷移策略,實現遷移參數的最優化和快速遷移的目的。另外,基于PhysioNet-MI和BCI-IV-2b兩個數據集對PTL-sVGG進行性能評估,并與最新研究結果進行比較,如表2和表3所示。PTL-sVGG取得94.9%的平均識別率以及0.898的平均Kappa值,皆高于對比文獻,特別是對于對比文獻中效果不佳的受試者S2和S3,其識別率與Kappa值均得到大幅提升,證實PTL-sVGG有利于增強目標域模型對不同受試者的普適性。
為進一步證明源域選擇對模型參數遷移效果的影響,將基于皮爾遜相關系數法優選的前30名(Top30)受試者和隨機選擇的30名受試者分別作為源域進行實驗,其所得目標域模型的識別精度如圖12所示。顯然,對9名目標受試者,利用Top30的源域受試者相對隨機選擇的30名受試者訓練的模型經參數遷移后識別精度均有提高。綜合圖9和圖12,彰顯了PTL-sVGG進行源域選擇的必要性。

圖10顯示了參數遷移策略對目標模型性能提升的重要作用。FA-sVGG的總體結果優于D-sVGG,說明該方法是有效的,但是對個別受試者,如S1、S3和S8,其準確率低于D-sVGG,即遷移后的識別率低于未使用遷移學習的結果,可能的原因是FA-sVGG凍結了提取特定特征的卷積層,而不同受試者的特定特征可能有別,S1、S3和S8的特定特征與源域差別較大,導致目標模型不能學習到新的知識而產生了負遷移。PTL-sVGG和FB1~3-sVGG通過微調提取特定特征的卷積層參數避免了負遷移的發生,使得S1、S3和S8的識別率皆優于FA-sVGG和D-sVGG。此外,為了驗證參數遷移策略對目標模型訓練時間的影響,本文在相同的環境配置下,對不同的遷移策略進行了實驗,結果如圖11所示。對比所有遷移策略訓練目標模型的時間消耗發現FA-sVGG明顯少于其它方法,主要原因是因為sVGG網絡的參數大多分布在兩個全連接層,FA-sVGG的遷移策略需要微調的參數相對最少,其模型訓練時間最短,而PTL-sVGG雖不及FA-sVGG,但相對于D-sVGG與FB1~3-sVGG仍呈現顯著優勢。結合圖10和圖11, PTL-sVGG遷移策略對目標模型識別精度和訓練快速性的提升起到了關鍵作用。
必須指出的是,PTL-sVGG在預訓練模型時,僅僅從源域的角度出發,選擇高質量數據作為預訓練數據,雖然提高了源域模型的性能,但沒有針對目標域的具體任務或相關程度進行優選,因此,優選源域的方法還需要進一步研究。此外,模型的預訓練消耗了大量時間,下一步工作將考慮利用已有的基于ImageNet預訓練的VGG-16網絡作為預訓練模型的初始化參數或結構的一部分,減少模型的預訓練時間,提高PTL-sVGG的整體效率。
5 結論
本文針對如何利用已有的MI-EEG數據輔助目標受試者進行分類的問題,提出了一種基于sVGG的參數遷移學習方法。該方法主要基于皮爾遜相關系數法優化源域,通過選擇不同MI任務類別之間距離較大的受試者,加大整個源域內不同MI任務類別之間的距離,使預訓練模型的參數最優;并將CNN提取特征時的特性與凍結—微調遷移策略相結合,設計了對目標模型貢獻最大的BTS。目前研究的重點集中在提高目標模型的性能上,所提出的PTL-sVGG方法通過優化源域MI-EEG數據質量,訓練高性能的源域模型,再經過BTS將源域模型的參數遷移至目標模型,實現了對目標模型的優化。實驗結果表明,PTL-sVGG方法提高了目標受試者MI-EEG數據的分類準確率和模型的泛化能力,減少了單個受試者的目標模型訓練時間,加快了訓練進程。
本文簡單呈現了基于網絡的參數遷移學習在MI-EEG數據識別的應用,未充分考慮遷移全連接層參數對目標域的影響,遷移策略的制定有待更深入的研究。接下來,可重點研究利用遷移學習技術提高目標模型在新MI任務中的快速適應能力。本文提出的源域優選方法和BTS提高了目標模型的性能,為遷移學習在MI-EEG數據分類中的應用奠定了堅實的基礎,將促進MI-EEG數據識別與遷移學習技術及深度學習更加廣泛地融合。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:許冬芹主要負責實驗流程、平臺搭建、算法程序設計、數據記錄與分析以及論文編寫;李明愛主要負責項目主持、算法程序設計、提供實驗指導、數據分析指導以及論文審閱修訂。
倫理聲明:本論文所用實驗數據均來自公開數據庫,不涉及倫理問題。