脈沖神經網絡(SNNs)以稀疏脈沖時間編碼、異步事件驅動的方式天然地適合處理事件相機輸出的事件流數據。為了提高現有的仿生分層脈沖神經網絡對事件相機對象的特征提取和分類性能,本文提出一種基于生物突觸可塑性的仿生分層脈沖神經網絡事件相機對象識別系統。該系統首先基于脈沖神經元電位對原始事件流進行自適應分割以提高系統計算效率,然后使用基于生物突觸可塑性的仿生分層脈沖神經網絡對事件流數據進行多層的時空特征提取并分類。在基于Gabor濾波器的事件驅動卷積層提取初級視覺特征之后,網絡使用基于無監督脈沖時間依賴突觸可塑性(STDP)規則的特征層提取頻繁出現的顯著特征,以及基于獎勵調節STDP規則的特征層學習診斷性特征。本文提出的網絡在四個基準事件流數據集上的分類精度均優于現有的仿生分層脈沖神經網絡,并且本文方法對于較短的事件流輸入數據也有很好的分類能力,對輸入事件流噪聲也具有較強的魯棒性。綜上,本文提出的網絡能夠提高該類網絡對事件相機對象的特征提取和分類性能。
引用本文: 周茜, 鄭鵬, 李小虎. 基于生物突觸可塑性的仿生分層脈沖神經網絡事件相機對象識別系統. 生物醫學工程學雜志, 2023, 40(4): 692-699. doi: 10.7507/1001-5515.202207040 復制
0 引言
近年來基于幀的視覺傳感器已成功應用于諸多計算機視覺領域[1],由于基于幀的視覺傳感器以恒定幀速率采樣全部亮度信息,導致物體發生高速運動時圖像會產生偽影及運動模糊,同時大量冗余數據增加了處理能耗,成為在動態目標識別中發展的瓶頸[2]。受生物視神經系統啟發,近年來出現了一系列神經形態視覺傳感器(neuromorphic vision sensor,NVS),以像素為單位輸出場景的亮度變化(事件)信息。由于神經形態視覺傳感器以異步方式獨立輸出事件信息,故也被稱為事件相機[3]。由于借鑒了生物視神經系統處理視覺信息的生理機制,事件相機具有高時間分辨率、低延遲、低功耗、高動態范圍的優勢[4],在低亮度和高動態場景下,對象識別性能具有更強的魯棒性,在諸多領域[5-8]展現出巨大的應用潛力。
由于傳統神經網絡以浮點值形式在網絡中傳遞信息,因此基于傳統神經網絡的特征提取算法不能直接處理事件相機輸出的事件流數據,需要將事件流片段累積為幀圖像,再使用傳統圖像處理方式如卷積進行特征提取[9-11]。但是,這樣處理忽視了事件流的時間信息,也未能充分利用事件相機輸出稀疏事件流的優勢。被稱為第三代人工神經網絡的脈沖神經網絡(spiking neural networks,SNNs)受生物神經系統啟發,使用稀疏脈沖時間編碼,異步事件驅動運算,具有低功耗和硬件友好的明顯優勢,已經成為一種理想的仿生神經形態計算范式[12]。以上優勢使得脈沖神經網絡天然地適合處理事件相機輸出的事件流數據。一種基于脈沖神經網絡提取事件相機對象特征的方法是將事件流數據累積重構為幀圖像,然后使用基于傳統神經網絡轉換成的脈沖神經網絡提取事件相機對象特征并分類[3]。這種方法雖然基于脈沖神經網絡提取特征,但由于是將卷積神經網絡轉化為脈沖神經網絡,導致更高的網絡處理延遲,未能充分利用事件相機低延時的優勢。還有一種方法是基于反向傳播等監督學習規則的深度脈沖神經網絡提取事件相機對象特征[13]。基于反向傳播的訓練算法使網絡有較高的分類精度,但也導致網絡整體計算成本很高。此外還有基于異構(heterogeneous)事件驅動脈沖神經網絡提取事件相機對象特征的方法[14],但所采用的異構卷積層的生物可解釋性較低。
近年來出現一些基于脈沖神經網絡的事件相機特征分類工作,借鑒靈長類動物視覺信息在腹側通路(V1-V2-V4-IT)分層處理的基本事實,構建仿生分層的脈沖神經網絡提取事件相機對象特征并完成分類識別[15-19]。例如Zhao等[15]提出一種事件驅動的前饋分層脈沖神經網絡用于事件相機對象識別,該分層脈沖神經網絡通過基于Gabor濾波器的事件驅動卷積操作直接提取事件流數據的初級特征。在分類階段使用基于Tempotron學習規則的脈沖神經網絡完成特征分類工作,該網絡在MNIST-DVS和AER Posture數據集上分別得到88.14%和99.48%的分類精度。這些仿生脈沖神經網絡具有明顯的事件驅動、結構較簡單、計算成本較低和低延遲優勢,并且提高了網絡的生物可解釋性。然而,目前這些淺層脈沖神經網絡在特征提取部分大多只是采用基于Gabor濾波器的事件驅動卷積層進行初級視覺特征提取,未充分提取事件的時空特征,阻礙了對復雜任務的高分類性能。
本文借鑒生物突觸可塑性機制進一步提高仿生分層脈沖神經網絡在事件相機對象識別任務中的特征提取能力和分類性能。脈沖時間依賴突觸可塑性(spiking timing dependent plasticity,STDP)規則是存在于哺乳動物視覺皮層中的無監督學習規則,被認為是學習、記憶的基本機制[20-21],描述了突觸前后神經元放電依賴對突觸連接強度的調節。研究表明STDP規則可幫助網絡學習頻繁出現的顯著特征[22-23]。獎勵調節(reward-modulated)STDP規則是一種基于強化學習的STDP規則,其靈感來源于大腦中神經調節劑可用于調整神經元之間的突觸可塑性。該規則可通過網絡分類結果正確與否,生成全局獎勵或者懲罰信號以幫助STDP規則調整神經元之間的突觸權值,使網絡學習具有診斷性的特征[20]。本文將STDP規則與獎勵調節STDP規則相結合應用于事件相機的事件流特征提取,并使用基于Gabor濾波器的事件驅動卷積提取初級特征,很好地利用了事件相機輸出事件流的時空信息。本文在四個基準數據集上評估所提出的事件相機對象識別網絡的分類性能,并與多個基線算法對比,同時分析了不同數據長度、不同噪聲水平下網絡的分類性能。
1 方法
本文提出的基于STDP規則的仿生分層脈沖神經網絡事件相機對象識別系統的主體框架圖如圖1所示,該系統由基于脈沖神經元電位的事件流分割模塊和基于仿生分層脈沖神經網絡的時空特征提取與分類模塊組成。事件流分割模塊利用由LIF神經元和峰值檢測單元組成的運動符號檢測器(motion symbol detector,MSD)[15]實現對輸入的原始事件流數據自適應分割。時空特征提取與分類模塊通過仿生分層脈沖神經網絡實現事件流特征提取以及事件相機對象識別。網絡由3個卷積特征提取層和3個池化層交替組成。

1.1 基于脈沖神經元電位的事件流分割
目前大多數事件相機對象識別系統在特征提取前對原始事件流數據進行分割處理,在盡可能充分提取對象特征的同時提高系統計算效率。本文的事件相機對象識別系統采用基于脈沖神經元電位的軟事件流分割方法,通過運動符號檢測器模塊[15]實現自適應地分割原始輸入事件流。該模塊由一個LIF神經元和一個峰值檢測單元組成。
將原始事件流輸入LIF神經元,每個輸入事件會使LIF神經元產生一個突觸后電位(postsynaptic potential,PSP)。為了減弱過早的輸入事件對當前的影響,借鑒生物神經元的泄漏機制[24],使LIF神經元的每個突觸后電位隨時間衰減,如圖2a和圖2b所示。對于在時間接收到的輸入事件,其對應的LIF神經元突觸后電位按照下式計算:

a. 輸入的原始事件流;b. 神經元突觸后總電位;c. 獲得足夠特征信息后該事件流片段的結束時間
Figure2. Event stream segmentation based on spiking neurona. input event stream data; b. the total postsynaptic membrane potential of the neuron; c. end time of the event stream segment
![]() |
其中 表示接收到的輸入事件的時刻,i是事件的索引號,
表示神經元膜電位衰減時間常數。每當接收到新的輸入事件,LIF神經元的總突觸后電位按照下式更新:
![]() |
圖2b為LIF神經元的總突觸后電位隨著事件輸入不斷更新的示例。該模塊以某一輸入事件為中心,在長度為 的搜索范圍內檢測各時刻LIF神經元的總突觸后電位,若LIF神經元的總突觸后電位迅速升高如圖2b所示,且在搜索范圍內
時刻對應的LIF神經元總突觸后電位為峰值,則將此峰值時間作為事件流片段的結束時間,并將峰值時間之前的所有事件發送到系統的下一部分進行特征提取和分類。
1.2 時空特征提取與分類模塊
1.2.1 事件驅動卷積層(S1層)
網絡S1層接收運動符號檢測器分割后的事件流數據,通過事件驅動卷積提取初級定向邊緣特征。該層由16個Gabor濾波器(4個不同尺度和4個不同方向)密集覆蓋輸入場景。Gabor濾波器可以模擬初級視覺皮層簡單細胞的感受野,并仿照視覺皮層的不同細胞對特定方向的不同特征做出最佳響應。每個輸入事件 分別與這些Gabor濾波器進行事件驅動卷積,其中
是第 i 個事件的輸出時間,
是該事件對應像素的位置。Gabor濾波器卷積核的生成公式與Serre等[25]采用的方法相同,參數設置如表1所示。

本文網絡S1層的事件驅動卷積是采用事件驅動,以無幀方式逐個事件進行卷積操作。具體過程為:首先將S1層特征響應圖初始化為0,當輸入某事件時,將每個Gabor濾波器卷積核覆蓋到對應特征圖上,卷積核的中心位置對應于該事件的像素位置,通過將卷積核的每個元素添加到該特征圖來更新特征圖的響應。同時,為了更好地利用事件的時間信息,減弱過于久遠的事件的影響,借鑒神經元膜電位泄漏機制,使更新后特征圖中每個位置的數值隨時間按照恒定的變化率 向零減少。通過這種方式,事件流片段的所有事件全部被處理后,最終得到S1層各二維特征響應圖的特征值。由于該卷積以無幀方式逐事件處理事件流,因此可保持事件相機輸出事件的高時間分辨率。
為將S1層提取的初級特征輸入給脈沖神經網絡后續層進行進一步的特征提取和分類,需要將S1層的特征值編碼為脈沖時間。在這里使用強度到延遲的編碼方案。對于S1層的每個二維特征響應圖,如果其某位置的特征值為r,則該位置對應的神經元脈沖放電時間為 。即S1層特征響應圖中特征強度數值越大,相應位置的神經元脈沖傳播越早,從而得到S1層各特征圖每個位置對應的神經元脈沖時間。
1.2.2 池化層(C1層)
網絡C1層接受S1層編碼后的脈沖時間并采用時域贏者通吃機制執行局部池化操作。每個C1層神經元從其相應池化窗口接收輸入脈沖,每個池化窗口只輸出該窗口接收到的最早脈沖,此脈沖時間即為該C1層神經元的放電時間。該脈沖代表了該池化窗口接收到的最顯著特征,從而保證最顯著的特征最先被傳播。
1.2.3 STDP卷積層(S2層)
網絡S2層接收C1層的輸出脈沖時間并基于STDP規則提取頻繁出現的顯著特征。該層包含多個特征層,每層神經元共享輸入突觸權值。每個S2層神經元接收上一層同一卷積窗口內所有層特征圖的神經元輸入脈沖。在時間步長t,S2層某特征圖中的第i個神經元的膜電位根據以下公式更新:
![]() |
其中 是時間步長t時該神經元的膜電位,
為第j個突觸前神經元與第i個神經元之間的突觸權值,
為第j個突觸前神經元的脈沖序列,如果該突觸前神經元在時間步長
處被激發放電,則
,否則
。
更新之后,如果該神經元的膜電位超過設定的閾值,神經元將發放脈沖,其相應的S和V的值被重置為
,
。
STDP規則是基于生物突觸可塑性的脈沖神經網絡常用的學習方法,是一種反映突觸前、后神經元放電先后順序以及放電時間緊密程度對突觸前、后神經元連接強度影響的無監督學習規則[26-27]。根據該規則如果突觸前神經元先于突觸后神經元放電,神經元之間連接強度將增大,且放電間隔越小,兩者連接強度增加越大;若突觸后神經元先于突觸前神經元放電,神經元之間連接強度將減小[28]。研究表明,利用STDP規則可幫助網絡學習頻繁出現的顯著特征[22-23]。本文所提出的仿生分層脈沖神經網絡中S2層使用的STDP規則只考慮突觸前、后神經元放電時刻,具體權值調整公式如下所示:
![]() |
其中 為C1層第 j個神經元到STDP卷積層(S2層)第i個神經元的突觸權值。
和
分別為突觸前神經元和突觸后神經元對應的脈沖時間,
和
是STDP規則的學習率參數,其中
,
。
確保權值保持在
的范圍內,從而使所有突觸處于興奮模式。突觸權值的初始值為隨機值,服從
和
的正態分布。
1.2.4 池化層(C2層)
網絡C2層接受S2層神經元的脈沖時間并采用時域贏者通吃機制執行局部池化操作。每個C2層神經元從其相應池化窗口接收輸入脈沖,每個池化窗口只輸出該窗口接收到的最早脈沖,此脈沖時間即為該C2層神經元的放電時間。
1.2.5 獎勵調 節 STD P 卷積層 ( S 3 層 )
網絡C2層神經元的放電脈沖輸入至S3層,并采用獎勵調節STDP規則提取更復雜的特征。每個S3層神經元接收同一卷積窗口內C2層所有神經元的放電脈沖。在每個時間步長t,S3層第i個神經元的膜電位按照式(3)更新。如果該神經元的膜電位超過設定閾值,則該神經元發放脈沖,之后其脈沖序列值和膜電位值分別重置為1和0。同一特征圖的卷積窗口內的神經元共享輸入突觸權值,并相互競爭,該窗口內最早放電的神經元根據獎勵調節STDP學習規則修改共享的突觸權值。
獎勵調節STDP學習規則受啟發于由多巴胺等神經調節劑參與的獎勵系統在大腦學習、決策方面具有的調節作用[29]。Mozafari等[20]借鑒這種獎勵調節機制提出了獎勵調節STDP規則,利用獎勵或者懲罰信號幫助調節神經元之間的權值,使網絡學習診斷性特征。本文使用獎勵調節STDP規則更新S3層神經元的輸入突觸權值。突觸權值的修改不僅取決于突觸前和突觸后神經元的脈沖時間,還取決于決策層反饋的獎勵(懲罰)信號,S3層輸入突觸權值的修正計算如下:
![]() |
其中 為C2層第j個突觸前神經元到S3層第i個突觸后神經元的突觸權值。
和
分別是該突觸的突觸前神經元和突觸后神經元的放電時間。
、
是兩個控制因子,對于來自決策層的不同反饋信號有不同的取值。如果網絡正確識別樣本,則反饋信號是獎勵信號,
和
;如果網絡錯誤識別樣本,則反饋信號是懲罰信號,
和
。
、
、
、
是獎勵調節STDP規則的學習率,用于調整權值變化幅度。
1.2.6 決策層(C3層)
網絡C3層執行全局最大池化操作并根據S3層神經元發出的最早的脈沖信號進行決策。在網絡學習之前,將C3層神經元根據輸入類別的數量分成若干組,每組C3神經元對應一種輸入類別的標簽,網絡對輸入樣本類別的決策被定義為在該層最早放電的神經元所在組的標簽。如果網絡的決策是正確的(不正確的),網絡將獲得獎勵(懲罰)信號,該信號用于調節R-STDP卷積層輸入突觸權值的修改。另外在該層采用Srivastava等[30]提出的Dropout技術,防止網絡在訓練階段過擬合。經過多次實驗本文設置Dropout參數(比率)為0.5。
2 事件相機對象識別實驗結果及分析
2.1 實驗設置及參數選擇
本文使用了四個基準數據集評估所提出的事件相機對象識別網絡的分類性能,包括三個AER數據集(MNIST-DVS[31]、N-MNIST[32]和N-CARS[33])和MNIST數據集[34]。實驗中每個數據集的訓練樣本和測試樣本都是隨機選取,對于MNIST-DVS和N-CARS數據集,隨機選取90%樣本進行訓練,剩余10%用于測試。對于MNIST和N-MNIST數據集,使用60 000個樣本用于訓練,剩余10 000個樣本用于測試。
2.2 對比算法
與本文提出的仿生分層脈沖神經網絡事件相機對象識別系統的性能進行對比的算法,都是受HMAX模型啟發的仿生分層脈沖神經網絡。Zhao等[15]首次提出基于事件驅動卷積的前饋分層脈沖神經網絡用于事件相機對象識別。網絡S1層使用Gabor濾波器通過事件流進行事件驅動卷積提取初級邊緣特征,使用首脈沖編碼(time-to-first-spike,TFS)方案對提取的特征進行脈沖編碼。分類階段采用Tempotron規則的脈沖神經網絡進行分類。Xiao等[16]在Zhao網絡[15]結構上通過多脈沖編碼方式將C1層輸出的所有脈沖輸入給采用Tempotron規則的脈沖神經網絡進行事件相機對象識別。Liu等[18]在網絡的S1層由Gabor濾波器通過事件驅動卷積提取初級邊緣特征,并通過自然對數編碼函數和多尺度特征融合將特征編碼為脈沖序列,使用基于STDP規則的全連接脈沖神經網絡進行分類。HFirst模型[19]是一種基于HMAX模型的脈沖神經網絡,網絡S1層采用Gabor濾波器通過事件驅動卷積提取事件流初級邊緣特征,使用基于統計學的方法進行模板匹配并進行分類。
2.3 實驗結果及分析
2.3.1 不同數據集上網絡分類性能對比
表2給出了本文提出的方法和對比算法在四個數據集上的分類性能,表中本文方法在每個數據集上的分類精度都是十次重復實驗結果的平均值。由表2可知,本文提出的方法在四個數據集上的分類精度上均優于所有對比算法。表中HFirst網絡[19]、Zhao[15]、Xiao[16]和Liu[18]的方法均是使用基于Gabor濾波器的事件驅動卷積提取事件流數據的初級視覺特征,且只有這一個特征提取層,這些方法中的脈沖神經網絡只用于對提取的特征進行分類。對于MNIST-DVS數據集,本文提出的方法得到了96.31%的平均分類精度,比HFirst網絡[19]、Zhao[15]、Xiao[16]和Liu[18]的網絡的精度分別提高了18.18%、8.17%、4.8%和6.35%;對于MNIST數據集,本文方法得到了96.76%的平均分類精度,比Zhao[15]和Xiao[16]的網絡的精度分別提高了5.47%和2.17%;對于N-MNIST數據集,本文方法得到了94.67%的平均分類精度,比HFirst網絡[19]、Zhao[15]和Xiao[16]的網絡的精度分別提高了23.47%、9.3%和1.41%。對于特征更加復雜的分類任務N-CARS數據集,本文方法可以得到89.18%的分類精度,比HFirst網絡[19]和Zhao[15]的網絡分別提高了33.08%、14.38%。表2也給出了單獨使用R-STDP特征提取層的分類結果,可以看到在各個數據集上的分類結果均低于本文提出的結合STDP規則和獎勵調節STDP規則的網絡模型,這是由于STDP特征提取層能夠幫助網絡提取重復出現的特征,因此結合STDP規則和獎勵調節STDP規則能夠更充分地提取事件流特征。綜上,本文在增加了STDP卷積層和獎勵調節STDP卷積層這兩個基于生物突觸可塑性的特征提取層后,明顯提高了基于Gabor濾波器事件驅動卷積的脈沖神經網絡的分類精度。實驗結果表明,結合STDP規則和獎勵調節STDP規則的仿生分層脈沖神經網絡,可以更加充分地提取事件流數據的時空特征并提高分類性能。

2.3.2 不同數據長度下網絡性能對比
本節分析了輸入事件流時間長度對網絡分類性能的影響,實驗中分別使用MNIST-DVS數據集的全長樣本以及不同時間長度的事件流樣本片段作為網絡輸入。對于每個實驗,訓練樣本和測試樣本具有相同的輸入事件流長度。表3顯示了本文方法和對比算法在使用不同的輸入事件流時間長度(100 ms、200 ms、500 ms和全長約2 s)時的分類性能。表中每個結果都是十次實驗的平均值。由表3可知在不同的輸入事件流時間長度下,本文提出的網絡的分類精度均優于對比算法,且有明顯的精度提升。其中當使用樣本的前100 ms的事件流片段作為網絡輸入時,本文提出的網絡取得了90.40%的分類精度,比HFirst網絡[19]、Zhao[15]、Xiao[16]和Liu[18]的網絡的精度分別提高了34.63%、13.54%、13.31%和11.15%。表明在較短事件流片段作為輸入的情況下,本文提出的網絡仍具有良好的特征學習能力和分類性能。綜上,實驗結果表明本文提出的結合STDP規則和獎勵調節STDP規則的仿生分層脈沖神經網絡,能夠在時間較短的事件流數據輸入下保持良好的特征學習能力,而且能夠進一步地提升仿生分層脈沖神經網絡在不同時間長度事件流數據集上的分類性能。

2.3.3 不同噪聲水平下網絡性能對比
本節將含有不同程度噪聲的事件流數據輸入至所提出的仿生分層脈沖神經網絡來驗證該網絡的抗噪能力。為模擬原始事件流數據中的噪聲事件,首先對原始的MNIST數據集樣本添加不同密度的椒鹽噪聲,噪聲密度由表示,范圍在0~0.5之間。采用基于閾值化的方法將其轉換為AER事件,將添加噪聲后的MNIST數據集輸入至網絡進行學習分類。本節通過分類精度損失衡量網絡的抗噪能力,使用沒有噪聲時的分類精度和添加噪聲后的分類精度之間的差值來表示精度損失。并與Zhao[15]的方法對比以評估網絡對噪聲的魯棒性。表4給出了本文提出的方法與Zhao[15]的方法在沒有噪聲和噪聲密度在0~0.5之間時的分類性能,可見總體上隨著噪聲密度的升高,網絡分類精度不斷降低,原因是噪聲密度越大意味著噪聲信號越多,越不利于網絡進行正確特征的提取,導致網絡的錯誤學習與分類。在不同噪聲密度下,本文提出的方法的分類精度均優于對比算法。例如當噪聲密度
時本文提出的方法可以獲得93.64%的分類精度,精度損失為3.12%,而相同情況下Zhao[15]的方法分類精度為81.19%,精度損失為10.10%。綜上,實驗結果表明本文提出的結合STDP規則和獎勵調節STDP規則的仿生脈沖神經網絡對噪聲具有較好的魯棒性。
3 結論
本文針對現有仿生分層脈沖神經網絡在事件相機對象識別中特征提取不充分的問題提出了一種結合STDP規則和獎勵調節STDP規則的仿生分層脈沖神經網絡事件相機對象識別系統。通過與現有的幾種仿生分層脈沖神經網絡模型進行對比實驗,分析了本文提出的網絡的特征提取能力以及分類性能。由研究結果可知,本文提出的網絡對比現有的仿生分層脈沖神經網絡能夠提升事件相機對象識別的特征提取能力以及分類性能;在不同輸入事件流時間長度,尤其是較短輸入事件流時間下仍具有較好的分類性能;此外,在不同密度噪聲影響下,網絡分類性能表現出較好的魯棒性。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:周茜、李小虎負責實驗設計和數據收集;鄭鵬負責數據分析和論文寫作。
0 引言
近年來基于幀的視覺傳感器已成功應用于諸多計算機視覺領域[1],由于基于幀的視覺傳感器以恒定幀速率采樣全部亮度信息,導致物體發生高速運動時圖像會產生偽影及運動模糊,同時大量冗余數據增加了處理能耗,成為在動態目標識別中發展的瓶頸[2]。受生物視神經系統啟發,近年來出現了一系列神經形態視覺傳感器(neuromorphic vision sensor,NVS),以像素為單位輸出場景的亮度變化(事件)信息。由于神經形態視覺傳感器以異步方式獨立輸出事件信息,故也被稱為事件相機[3]。由于借鑒了生物視神經系統處理視覺信息的生理機制,事件相機具有高時間分辨率、低延遲、低功耗、高動態范圍的優勢[4],在低亮度和高動態場景下,對象識別性能具有更強的魯棒性,在諸多領域[5-8]展現出巨大的應用潛力。
由于傳統神經網絡以浮點值形式在網絡中傳遞信息,因此基于傳統神經網絡的特征提取算法不能直接處理事件相機輸出的事件流數據,需要將事件流片段累積為幀圖像,再使用傳統圖像處理方式如卷積進行特征提取[9-11]。但是,這樣處理忽視了事件流的時間信息,也未能充分利用事件相機輸出稀疏事件流的優勢。被稱為第三代人工神經網絡的脈沖神經網絡(spiking neural networks,SNNs)受生物神經系統啟發,使用稀疏脈沖時間編碼,異步事件驅動運算,具有低功耗和硬件友好的明顯優勢,已經成為一種理想的仿生神經形態計算范式[12]。以上優勢使得脈沖神經網絡天然地適合處理事件相機輸出的事件流數據。一種基于脈沖神經網絡提取事件相機對象特征的方法是將事件流數據累積重構為幀圖像,然后使用基于傳統神經網絡轉換成的脈沖神經網絡提取事件相機對象特征并分類[3]。這種方法雖然基于脈沖神經網絡提取特征,但由于是將卷積神經網絡轉化為脈沖神經網絡,導致更高的網絡處理延遲,未能充分利用事件相機低延時的優勢。還有一種方法是基于反向傳播等監督學習規則的深度脈沖神經網絡提取事件相機對象特征[13]。基于反向傳播的訓練算法使網絡有較高的分類精度,但也導致網絡整體計算成本很高。此外還有基于異構(heterogeneous)事件驅動脈沖神經網絡提取事件相機對象特征的方法[14],但所采用的異構卷積層的生物可解釋性較低。
近年來出現一些基于脈沖神經網絡的事件相機特征分類工作,借鑒靈長類動物視覺信息在腹側通路(V1-V2-V4-IT)分層處理的基本事實,構建仿生分層的脈沖神經網絡提取事件相機對象特征并完成分類識別[15-19]。例如Zhao等[15]提出一種事件驅動的前饋分層脈沖神經網絡用于事件相機對象識別,該分層脈沖神經網絡通過基于Gabor濾波器的事件驅動卷積操作直接提取事件流數據的初級特征。在分類階段使用基于Tempotron學習規則的脈沖神經網絡完成特征分類工作,該網絡在MNIST-DVS和AER Posture數據集上分別得到88.14%和99.48%的分類精度。這些仿生脈沖神經網絡具有明顯的事件驅動、結構較簡單、計算成本較低和低延遲優勢,并且提高了網絡的生物可解釋性。然而,目前這些淺層脈沖神經網絡在特征提取部分大多只是采用基于Gabor濾波器的事件驅動卷積層進行初級視覺特征提取,未充分提取事件的時空特征,阻礙了對復雜任務的高分類性能。
本文借鑒生物突觸可塑性機制進一步提高仿生分層脈沖神經網絡在事件相機對象識別任務中的特征提取能力和分類性能。脈沖時間依賴突觸可塑性(spiking timing dependent plasticity,STDP)規則是存在于哺乳動物視覺皮層中的無監督學習規則,被認為是學習、記憶的基本機制[20-21],描述了突觸前后神經元放電依賴對突觸連接強度的調節。研究表明STDP規則可幫助網絡學習頻繁出現的顯著特征[22-23]。獎勵調節(reward-modulated)STDP規則是一種基于強化學習的STDP規則,其靈感來源于大腦中神經調節劑可用于調整神經元之間的突觸可塑性。該規則可通過網絡分類結果正確與否,生成全局獎勵或者懲罰信號以幫助STDP規則調整神經元之間的突觸權值,使網絡學習具有診斷性的特征[20]。本文將STDP規則與獎勵調節STDP規則相結合應用于事件相機的事件流特征提取,并使用基于Gabor濾波器的事件驅動卷積提取初級特征,很好地利用了事件相機輸出事件流的時空信息。本文在四個基準數據集上評估所提出的事件相機對象識別網絡的分類性能,并與多個基線算法對比,同時分析了不同數據長度、不同噪聲水平下網絡的分類性能。
1 方法
本文提出的基于STDP規則的仿生分層脈沖神經網絡事件相機對象識別系統的主體框架圖如圖1所示,該系統由基于脈沖神經元電位的事件流分割模塊和基于仿生分層脈沖神經網絡的時空特征提取與分類模塊組成。事件流分割模塊利用由LIF神經元和峰值檢測單元組成的運動符號檢測器(motion symbol detector,MSD)[15]實現對輸入的原始事件流數據自適應分割。時空特征提取與分類模塊通過仿生分層脈沖神經網絡實現事件流特征提取以及事件相機對象識別。網絡由3個卷積特征提取層和3個池化層交替組成。

1.1 基于脈沖神經元電位的事件流分割
目前大多數事件相機對象識別系統在特征提取前對原始事件流數據進行分割處理,在盡可能充分提取對象特征的同時提高系統計算效率。本文的事件相機對象識別系統采用基于脈沖神經元電位的軟事件流分割方法,通過運動符號檢測器模塊[15]實現自適應地分割原始輸入事件流。該模塊由一個LIF神經元和一個峰值檢測單元組成。
將原始事件流輸入LIF神經元,每個輸入事件會使LIF神經元產生一個突觸后電位(postsynaptic potential,PSP)。為了減弱過早的輸入事件對當前的影響,借鑒生物神經元的泄漏機制[24],使LIF神經元的每個突觸后電位隨時間衰減,如圖2a和圖2b所示。對于在時間接收到的輸入事件,其對應的LIF神經元突觸后電位按照下式計算:

a. 輸入的原始事件流;b. 神經元突觸后總電位;c. 獲得足夠特征信息后該事件流片段的結束時間
Figure2. Event stream segmentation based on spiking neurona. input event stream data; b. the total postsynaptic membrane potential of the neuron; c. end time of the event stream segment
![]() |
其中 表示接收到的輸入事件的時刻,i是事件的索引號,
表示神經元膜電位衰減時間常數。每當接收到新的輸入事件,LIF神經元的總突觸后電位按照下式更新:
![]() |
圖2b為LIF神經元的總突觸后電位隨著事件輸入不斷更新的示例。該模塊以某一輸入事件為中心,在長度為 的搜索范圍內檢測各時刻LIF神經元的總突觸后電位,若LIF神經元的總突觸后電位迅速升高如圖2b所示,且在搜索范圍內
時刻對應的LIF神經元總突觸后電位為峰值,則將此峰值時間作為事件流片段的結束時間,并將峰值時間之前的所有事件發送到系統的下一部分進行特征提取和分類。
1.2 時空特征提取與分類模塊
1.2.1 事件驅動卷積層(S1層)
網絡S1層接收運動符號檢測器分割后的事件流數據,通過事件驅動卷積提取初級定向邊緣特征。該層由16個Gabor濾波器(4個不同尺度和4個不同方向)密集覆蓋輸入場景。Gabor濾波器可以模擬初級視覺皮層簡單細胞的感受野,并仿照視覺皮層的不同細胞對特定方向的不同特征做出最佳響應。每個輸入事件 分別與這些Gabor濾波器進行事件驅動卷積,其中
是第 i 個事件的輸出時間,
是該事件對應像素的位置。Gabor濾波器卷積核的生成公式與Serre等[25]采用的方法相同,參數設置如表1所示。

本文網絡S1層的事件驅動卷積是采用事件驅動,以無幀方式逐個事件進行卷積操作。具體過程為:首先將S1層特征響應圖初始化為0,當輸入某事件時,將每個Gabor濾波器卷積核覆蓋到對應特征圖上,卷積核的中心位置對應于該事件的像素位置,通過將卷積核的每個元素添加到該特征圖來更新特征圖的響應。同時,為了更好地利用事件的時間信息,減弱過于久遠的事件的影響,借鑒神經元膜電位泄漏機制,使更新后特征圖中每個位置的數值隨時間按照恒定的變化率 向零減少。通過這種方式,事件流片段的所有事件全部被處理后,最終得到S1層各二維特征響應圖的特征值。由于該卷積以無幀方式逐事件處理事件流,因此可保持事件相機輸出事件的高時間分辨率。
為將S1層提取的初級特征輸入給脈沖神經網絡后續層進行進一步的特征提取和分類,需要將S1層的特征值編碼為脈沖時間。在這里使用強度到延遲的編碼方案。對于S1層的每個二維特征響應圖,如果其某位置的特征值為r,則該位置對應的神經元脈沖放電時間為 。即S1層特征響應圖中特征強度數值越大,相應位置的神經元脈沖傳播越早,從而得到S1層各特征圖每個位置對應的神經元脈沖時間。
1.2.2 池化層(C1層)
網絡C1層接受S1層編碼后的脈沖時間并采用時域贏者通吃機制執行局部池化操作。每個C1層神經元從其相應池化窗口接收輸入脈沖,每個池化窗口只輸出該窗口接收到的最早脈沖,此脈沖時間即為該C1層神經元的放電時間。該脈沖代表了該池化窗口接收到的最顯著特征,從而保證最顯著的特征最先被傳播。
1.2.3 STDP卷積層(S2層)
網絡S2層接收C1層的輸出脈沖時間并基于STDP規則提取頻繁出現的顯著特征。該層包含多個特征層,每層神經元共享輸入突觸權值。每個S2層神經元接收上一層同一卷積窗口內所有層特征圖的神經元輸入脈沖。在時間步長t,S2層某特征圖中的第i個神經元的膜電位根據以下公式更新:
![]() |
其中 是時間步長t時該神經元的膜電位,
為第j個突觸前神經元與第i個神經元之間的突觸權值,
為第j個突觸前神經元的脈沖序列,如果該突觸前神經元在時間步長
處被激發放電,則
,否則
。
更新之后,如果該神經元的膜電位超過設定的閾值,神經元將發放脈沖,其相應的S和V的值被重置為
,
。
STDP規則是基于生物突觸可塑性的脈沖神經網絡常用的學習方法,是一種反映突觸前、后神經元放電先后順序以及放電時間緊密程度對突觸前、后神經元連接強度影響的無監督學習規則[26-27]。根據該規則如果突觸前神經元先于突觸后神經元放電,神經元之間連接強度將增大,且放電間隔越小,兩者連接強度增加越大;若突觸后神經元先于突觸前神經元放電,神經元之間連接強度將減小[28]。研究表明,利用STDP規則可幫助網絡學習頻繁出現的顯著特征[22-23]。本文所提出的仿生分層脈沖神經網絡中S2層使用的STDP規則只考慮突觸前、后神經元放電時刻,具體權值調整公式如下所示:
![]() |
其中 為C1層第 j個神經元到STDP卷積層(S2層)第i個神經元的突觸權值。
和
分別為突觸前神經元和突觸后神經元對應的脈沖時間,
和
是STDP規則的學習率參數,其中
,
。
確保權值保持在
的范圍內,從而使所有突觸處于興奮模式。突觸權值的初始值為隨機值,服從
和
的正態分布。
1.2.4 池化層(C2層)
網絡C2層接受S2層神經元的脈沖時間并采用時域贏者通吃機制執行局部池化操作。每個C2層神經元從其相應池化窗口接收輸入脈沖,每個池化窗口只輸出該窗口接收到的最早脈沖,此脈沖時間即為該C2層神經元的放電時間。
1.2.5 獎勵調 節 STD P 卷積層 ( S 3 層 )
網絡C2層神經元的放電脈沖輸入至S3層,并采用獎勵調節STDP規則提取更復雜的特征。每個S3層神經元接收同一卷積窗口內C2層所有神經元的放電脈沖。在每個時間步長t,S3層第i個神經元的膜電位按照式(3)更新。如果該神經元的膜電位超過設定閾值,則該神經元發放脈沖,之后其脈沖序列值和膜電位值分別重置為1和0。同一特征圖的卷積窗口內的神經元共享輸入突觸權值,并相互競爭,該窗口內最早放電的神經元根據獎勵調節STDP學習規則修改共享的突觸權值。
獎勵調節STDP學習規則受啟發于由多巴胺等神經調節劑參與的獎勵系統在大腦學習、決策方面具有的調節作用[29]。Mozafari等[20]借鑒這種獎勵調節機制提出了獎勵調節STDP規則,利用獎勵或者懲罰信號幫助調節神經元之間的權值,使網絡學習診斷性特征。本文使用獎勵調節STDP規則更新S3層神經元的輸入突觸權值。突觸權值的修改不僅取決于突觸前和突觸后神經元的脈沖時間,還取決于決策層反饋的獎勵(懲罰)信號,S3層輸入突觸權值的修正計算如下:
![]() |
其中 為C2層第j個突觸前神經元到S3層第i個突觸后神經元的突觸權值。
和
分別是該突觸的突觸前神經元和突觸后神經元的放電時間。
、
是兩個控制因子,對于來自決策層的不同反饋信號有不同的取值。如果網絡正確識別樣本,則反饋信號是獎勵信號,
和
;如果網絡錯誤識別樣本,則反饋信號是懲罰信號,
和
。
、
、
、
是獎勵調節STDP規則的學習率,用于調整權值變化幅度。
1.2.6 決策層(C3層)
網絡C3層執行全局最大池化操作并根據S3層神經元發出的最早的脈沖信號進行決策。在網絡學習之前,將C3層神經元根據輸入類別的數量分成若干組,每組C3神經元對應一種輸入類別的標簽,網絡對輸入樣本類別的決策被定義為在該層最早放電的神經元所在組的標簽。如果網絡的決策是正確的(不正確的),網絡將獲得獎勵(懲罰)信號,該信號用于調節R-STDP卷積層輸入突觸權值的修改。另外在該層采用Srivastava等[30]提出的Dropout技術,防止網絡在訓練階段過擬合。經過多次實驗本文設置Dropout參數(比率)為0.5。
2 事件相機對象識別實驗結果及分析
2.1 實驗設置及參數選擇
本文使用了四個基準數據集評估所提出的事件相機對象識別網絡的分類性能,包括三個AER數據集(MNIST-DVS[31]、N-MNIST[32]和N-CARS[33])和MNIST數據集[34]。實驗中每個數據集的訓練樣本和測試樣本都是隨機選取,對于MNIST-DVS和N-CARS數據集,隨機選取90%樣本進行訓練,剩余10%用于測試。對于MNIST和N-MNIST數據集,使用60 000個樣本用于訓練,剩余10 000個樣本用于測試。
2.2 對比算法
與本文提出的仿生分層脈沖神經網絡事件相機對象識別系統的性能進行對比的算法,都是受HMAX模型啟發的仿生分層脈沖神經網絡。Zhao等[15]首次提出基于事件驅動卷積的前饋分層脈沖神經網絡用于事件相機對象識別。網絡S1層使用Gabor濾波器通過事件流進行事件驅動卷積提取初級邊緣特征,使用首脈沖編碼(time-to-first-spike,TFS)方案對提取的特征進行脈沖編碼。分類階段采用Tempotron規則的脈沖神經網絡進行分類。Xiao等[16]在Zhao網絡[15]結構上通過多脈沖編碼方式將C1層輸出的所有脈沖輸入給采用Tempotron規則的脈沖神經網絡進行事件相機對象識別。Liu等[18]在網絡的S1層由Gabor濾波器通過事件驅動卷積提取初級邊緣特征,并通過自然對數編碼函數和多尺度特征融合將特征編碼為脈沖序列,使用基于STDP規則的全連接脈沖神經網絡進行分類。HFirst模型[19]是一種基于HMAX模型的脈沖神經網絡,網絡S1層采用Gabor濾波器通過事件驅動卷積提取事件流初級邊緣特征,使用基于統計學的方法進行模板匹配并進行分類。
2.3 實驗結果及分析
2.3.1 不同數據集上網絡分類性能對比
表2給出了本文提出的方法和對比算法在四個數據集上的分類性能,表中本文方法在每個數據集上的分類精度都是十次重復實驗結果的平均值。由表2可知,本文提出的方法在四個數據集上的分類精度上均優于所有對比算法。表中HFirst網絡[19]、Zhao[15]、Xiao[16]和Liu[18]的方法均是使用基于Gabor濾波器的事件驅動卷積提取事件流數據的初級視覺特征,且只有這一個特征提取層,這些方法中的脈沖神經網絡只用于對提取的特征進行分類。對于MNIST-DVS數據集,本文提出的方法得到了96.31%的平均分類精度,比HFirst網絡[19]、Zhao[15]、Xiao[16]和Liu[18]的網絡的精度分別提高了18.18%、8.17%、4.8%和6.35%;對于MNIST數據集,本文方法得到了96.76%的平均分類精度,比Zhao[15]和Xiao[16]的網絡的精度分別提高了5.47%和2.17%;對于N-MNIST數據集,本文方法得到了94.67%的平均分類精度,比HFirst網絡[19]、Zhao[15]和Xiao[16]的網絡的精度分別提高了23.47%、9.3%和1.41%。對于特征更加復雜的分類任務N-CARS數據集,本文方法可以得到89.18%的分類精度,比HFirst網絡[19]和Zhao[15]的網絡分別提高了33.08%、14.38%。表2也給出了單獨使用R-STDP特征提取層的分類結果,可以看到在各個數據集上的分類結果均低于本文提出的結合STDP規則和獎勵調節STDP規則的網絡模型,這是由于STDP特征提取層能夠幫助網絡提取重復出現的特征,因此結合STDP規則和獎勵調節STDP規則能夠更充分地提取事件流特征。綜上,本文在增加了STDP卷積層和獎勵調節STDP卷積層這兩個基于生物突觸可塑性的特征提取層后,明顯提高了基于Gabor濾波器事件驅動卷積的脈沖神經網絡的分類精度。實驗結果表明,結合STDP規則和獎勵調節STDP規則的仿生分層脈沖神經網絡,可以更加充分地提取事件流數據的時空特征并提高分類性能。

2.3.2 不同數據長度下網絡性能對比
本節分析了輸入事件流時間長度對網絡分類性能的影響,實驗中分別使用MNIST-DVS數據集的全長樣本以及不同時間長度的事件流樣本片段作為網絡輸入。對于每個實驗,訓練樣本和測試樣本具有相同的輸入事件流長度。表3顯示了本文方法和對比算法在使用不同的輸入事件流時間長度(100 ms、200 ms、500 ms和全長約2 s)時的分類性能。表中每個結果都是十次實驗的平均值。由表3可知在不同的輸入事件流時間長度下,本文提出的網絡的分類精度均優于對比算法,且有明顯的精度提升。其中當使用樣本的前100 ms的事件流片段作為網絡輸入時,本文提出的網絡取得了90.40%的分類精度,比HFirst網絡[19]、Zhao[15]、Xiao[16]和Liu[18]的網絡的精度分別提高了34.63%、13.54%、13.31%和11.15%。表明在較短事件流片段作為輸入的情況下,本文提出的網絡仍具有良好的特征學習能力和分類性能。綜上,實驗結果表明本文提出的結合STDP規則和獎勵調節STDP規則的仿生分層脈沖神經網絡,能夠在時間較短的事件流數據輸入下保持良好的特征學習能力,而且能夠進一步地提升仿生分層脈沖神經網絡在不同時間長度事件流數據集上的分類性能。

2.3.3 不同噪聲水平下網絡性能對比
本節將含有不同程度噪聲的事件流數據輸入至所提出的仿生分層脈沖神經網絡來驗證該網絡的抗噪能力。為模擬原始事件流數據中的噪聲事件,首先對原始的MNIST數據集樣本添加不同密度的椒鹽噪聲,噪聲密度由表示,范圍在0~0.5之間。采用基于閾值化的方法將其轉換為AER事件,將添加噪聲后的MNIST數據集輸入至網絡進行學習分類。本節通過分類精度損失衡量網絡的抗噪能力,使用沒有噪聲時的分類精度和添加噪聲后的分類精度之間的差值來表示精度損失。并與Zhao[15]的方法對比以評估網絡對噪聲的魯棒性。表4給出了本文提出的方法與Zhao[15]的方法在沒有噪聲和噪聲密度在0~0.5之間時的分類性能,可見總體上隨著噪聲密度的升高,網絡分類精度不斷降低,原因是噪聲密度越大意味著噪聲信號越多,越不利于網絡進行正確特征的提取,導致網絡的錯誤學習與分類。在不同噪聲密度下,本文提出的方法的分類精度均優于對比算法。例如當噪聲密度
時本文提出的方法可以獲得93.64%的分類精度,精度損失為3.12%,而相同情況下Zhao[15]的方法分類精度為81.19%,精度損失為10.10%。綜上,實驗結果表明本文提出的結合STDP規則和獎勵調節STDP規則的仿生脈沖神經網絡對噪聲具有較好的魯棒性。
3 結論
本文針對現有仿生分層脈沖神經網絡在事件相機對象識別中特征提取不充分的問題提出了一種結合STDP規則和獎勵調節STDP規則的仿生分層脈沖神經網絡事件相機對象識別系統。通過與現有的幾種仿生分層脈沖神經網絡模型進行對比實驗,分析了本文提出的網絡的特征提取能力以及分類性能。由研究結果可知,本文提出的網絡對比現有的仿生分層脈沖神經網絡能夠提升事件相機對象識別的特征提取能力以及分類性能;在不同輸入事件流時間長度,尤其是較短輸入事件流時間下仍具有較好的分類性能;此外,在不同密度噪聲影響下,網絡分類性能表現出較好的魯棒性。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:周茜、李小虎負責實驗設計和數據收集;鄭鵬負責數據分析和論文寫作。