獼猴作為藥物安全性評估中常見的動物模型,其行為反映它用藥前后的健康情況,可以揭示出藥物產生的副作用。目前,研究人員通常利用人工對獼猴的行為進行觀察,該方式無法實現不間斷的24 h監測。因此,急需發展一種方法體系實現對獼猴行為的24 h觀測和識別。針對此問題,本文構建了一個包含九類獼猴行為的視頻數據集(MBVD-9),并在此數據集的基礎上提出一種名為基于變換器(Transformer)增強的慢快網絡(SlowFast)用于獼猴行為識別(TAS-MBR)。具體地說,TAS-MBR網絡在SlowFast的基礎上將其快支路輸入的紅綠藍(RGB)色彩模式幀轉化為殘差幀,并在卷積操作之后引入了變換器模塊,更有效地提取了運動信息。結果顯示,TAS-MBR網絡對獼猴行為的平均分類準確率為94.53%,較原有的SlowFast有明顯提升,證明了本文所提方法在獼猴行為識別方面的有效性和優越性。這項工作為獼猴行為的不間斷的觀測和識別提供了新的思路,奠定了藥物安全評價中進行用藥前后獼猴行為計算的技術基礎。
引用本文: 仲偉峰, 徐哲, 朱翔昱, 馬喜波. 基于改進慢快網絡的獼猴多行為識別方法. 生物醫學工程學雜志, 2023, 40(2): 257-264. doi: 10.7507/1001-5515.202112014 復制
0 引言
現代藥物研發可分為臨床前和臨床試驗兩個階段[1]。藥物安全性評估是臨床前研究新藥潛在風險和有效性的基礎[2]。獼猴與人同屬靈長類動物,遺傳關系接近。獼猴在藥物的安全性評估中常被作為模式動物[3],其行為在用藥前后的變化往往會警示藥物的相關副作用[4]。因此,獼猴行為的準確識別對藥物安全性評估至關重要。
目前,行為識別方法大致可分為兩類:基于手工特征提取的方法和基于深度學習的方法[5]。手工特征提取方法中的方向梯度直方圖(histogram of oriented gradients,HOG)、方向光流直方圖(histogram of oriented optical flow,HOF)和運動邊界直方圖(motion boundary histogram,MBH)等能夠對時空興趣點的特征進行表示而識別不同行為[6-8]。另外,通過對特征點的軌跡追蹤來對運動狀態進行描述,也屬于基于手工特征提取方法,例如Messing等[9]提出了密集軌跡法(dense trajectories,DT),Wang等[10]提出了改進的密集軌跡法(improved dense trajectories,IDT)。然而,基于手工特征提取的方法局限性較大,難以全面地提取視頻的特征信息,近年來深度學習的興起,為行為識別提供了新的思路[11]。深度學習中行為識別網絡大致可分為三類:雙流卷積神經網絡(two-stream convolution neural networks,Two-Stream CNN)、三維卷積神經網絡(three dimensional convolution neural networks,3D-CNN)和長短時記憶(long short-term memory,LSTM)網絡。Simonyan等[12]提出的雙流卷積神經網絡中空間流輸入的是紅綠藍(red,green,blue,RGB)色彩模式的視頻幀,時間流中的輸入的是光流圖像,隨后兩條支路的信息融合而獲得視頻的時空信息特征[13]。相較于雙流卷積神經網絡中用兩條支路分別獲得視頻的時空信息,三維卷積神經結構能夠同時提取時空特征,使得網絡結構更加直觀和高效。Tran等[14]提出了一種卷積三維(convolutional three dimensional,C3D)網絡,其輸入是連續的視頻幀,可以同時提取空間和時間維度的信息。Christoph等[15]把殘差網絡(residual networks, Resnet)用到視頻領域,當與三維卷積結合后,提出了三維Resnet(three dimensional Resnet,R3D)[16]。此外,在LSTM的發展中,Donahue等[17]把卷積神經網絡和LSTM結合起來提出了長時循環神經網絡(long-term recurrent convolutional networks,LRCN)。LRCN將從卷積神經網絡中得到的特征輸入到LSTM網絡中,利用卷積神經網絡和LSTM網絡兩種結構全面地對視頻特征進行提取。
受到時間分辨率與時空信息關系的啟發,Feichtenhofer等[18]提出了慢快網絡(slowfast networks,SlowFast)。它是一種類雙流卷積神經網絡,分為慢支路和快支路。慢支路中時間采樣率低,卷積核通道數多,主要獲取視頻中的語義信息。快支路中時間采樣率高,卷積核通道數少,主要獲取視頻中的行為信息。在兩條支路相對應的殘差塊(residual block)之后進行側向連接將信息融合[16, 18]。SlowFast的上述特征,使得該網絡是目前行為識別效果最好的網絡之一[18-19]。為了獲得視頻中的幀與幀之間的關系,近幾年已將變換器(Transformer)應用于行為識別中[20-21]。Transformer采用的是自注意力機制,可以有效地對時序關系進行建模[22]。除了網絡結構的變化外,Tao等[23]提出將殘差幀(residual frames)作為網絡中時間流的輸入,用于更有效地獲得運動信息。殘差幀只保留了相鄰幀之間的變化信息,使得時間流網絡避免了背景等信息的干擾。
上述行為識別方法在區分人類行為時得到了廣泛應用,然而面向獼猴行為的識別方法卻少之又少。現有的獼猴行為識別方法是在姿態估計的基礎上將關節點坐標化并進行聚類[24]。此方法的中間步驟較多,不屬于端到端的識別方法。由于獼猴的體型小和行為特征復雜,其行為識別面臨以下三個難點:① 獼猴姿態豐富,毛發較多,拍攝難度大;② 獼猴的關節靈活,且某些行為類型差異較小;③ 不同行為完成時間差異較大,如:獼猴的跳躍行為起止時間可能短至1~2 s,而蹲坐可長達幾十分鐘。針對難點 ① 和 ②,本文采用三視角的拍攝方法,從正視、側視和俯視三個角度來拍攝獼猴,在數據采集階段保證行為片段的準確性和完整性。針對難點 ③,在視頻幀輸入到網絡之前根據視頻的時間長短進行不同幀間隔地均勻采樣,使輸入數據盡可能包含長時間的信息。鑒于SlowFast的有效性和Transformer捕獲長時間內幀與幀之間關系的能力,本文提出一種將SlowFast和Transformer結合的網絡結構,用以識別獼猴在視頻中的行為。該網絡命名為Transformer增強的用于獼猴行為識別的SlowFast(Transformer augmented SlowFast for macaque behavior recognition,TAS-MBR)網絡。
本文創建了一個包含九類獼猴行為的視頻數據集(a nine kinds of macaque behaviors video dataset,MBVD-9),并提出了TAS-MBR網絡來進行獼猴行為自動識別。TAS-MBR網絡為獼猴行為的自動識別提供了新方法,是人工智能和獼猴行為監測的有效結合。最終,期望本文方法能夠實現獼猴行為的遠程監測和識別,為藥物安全性評估智能化助力。
1 獼猴行為數據集的構建
卷積神經網絡的訓練需要大量的數據,因此本研究首先需要得到一個可供藥物安全性評估的獼猴行為數據集。數據集的生成可分為六個步驟:拍攝環境的選擇、攝像機的選擇及其固定裝置設計、雙視角或三視角拍攝、實驗動物挑選、視頻數據清洗和行為片段裁剪。
1.1 拍攝環境的選擇
本文中獼猴視頻數據采集地點是位于北京市的北京協爾鑫生物資源研究所有限責任公司和昭衍新藥研究中心股份有限公司。實驗動物來源于北京協爾鑫生物資源研究所有限責任公司和昭衍新藥研究中心股份有限公司培育和飼養的獼猴。本文研究通過了中國科學院自動化研究所的動物倫理委員會審核(實驗動物許可證號IA-202042)。拍攝場景是在長 × 寬 × 高分別為74 cm × 69 cm × 89 cm和110 cm × 140 cm × 220 cm的鐵制猴籠中進行拍攝。這兩種規格的猴籠分別是單只獼猴和群體獼猴(5只)的成長和實驗環境。單只獼猴數據采集時間是從2020年8月13日—2020年11月23日,歷時92 d。群體獼猴數據采集時間是2021年6月21日—2021年6月24日,歷時4 d。
1.2 攝像機的選擇及其固定裝置設計
拍攝獼猴視頻選擇的是霸天安攝像頭(旗艦版,深圳市霸天安科技有限公司,中國),形狀是正方體,長、寬、高均為3.8 cm。攝像頭的分辨率為960 × 1 280,幀率設置為15 幀/s或60 幀/s,鏡頭視角為155°。
數據采集過程中,由于獼猴生性好動,若將攝像頭暴露于猴籠表面進行拍攝,將出現啃咬攝像頭和抓撓充電線的情況。因此,本課題組專門制作了攝像頭固定裝置來安放攝像頭,以利于數據采集。
1.3 雙視角或三視角拍攝
單只獼猴由于飼養場地限制,只能進行雙視角拍攝。群體獼猴是從正視、側視和俯視三個角度同時拍攝。攝像頭視角為155°,若是只取特定視角對獼猴進行拍攝,會出現視野盲區,可能丟失某類行為。相較于文獻[24]中實驗所需的62臺攝像機,本研究僅需兩臺或三臺攝像機便可全面、有效地記錄獼猴的行為,因此本研究從設備層面上更加經濟、實用。視頻采集的裝置可分為三部分:猴籠、攝像機和固定裝置。整體結構及效果如圖1所示。固定裝置位于各表面中間位置,其高度為50 cm,以防止獼猴將手臂伸出猴籠后抓撓到攝像頭電線。

1.4 實驗動物挑選
本研究的實驗對象是恒河猴和食蟹猴。恒河猴和食蟹猴均是實驗用獼猴,是藥物安全性評估中的代表動物[25]。為了盡可能涵蓋藥物安全性評估中實驗對象的生長時期和性別,本研究分別拍攝了幼年、成年和老年時期不同性別的恒河猴和食蟹猴。本研究拍攝時的狀態環境劃分為單只猴場景和群體猴場景,共設置9只猴籠,依序編號。實驗動物信息如表1所示,其中群體猴視頻場景中獼猴均處于幼年期且性別不統一。

1.5 視頻數據清洗和行為片段裁剪
在拍攝視頻時,不可避免地出現了“臟數據”,指難以被人眼識別獼猴行為的視頻數據。因此拍攝完成后需要進行數據清洗,剔除掉質量不佳的視頻。獼猴行為類別確定的標準是行為完整可見且明確定義的。本研究中將獼猴的行為分成九類,分別是臥倒、蹲坐、行走、向上移動、向下移動、懸掛、直立、攀附和進食。本文采用的是視頻播放軟件PotPlayer(1.7.21564,Daum Inc.,韓國),播放時在文本文檔中記錄視頻名稱、行為開始時間、行為結束時間和行為類別。若是群體獼猴的視頻還需要利用標注軟件VoTT(v2.2,Microsoft Inc.,美國)標注行為時間段內活動區域的范圍,以區分同一時間段內其它獼猴。然后編寫腳本批量裁剪獼猴行為片段。如圖2所示,為單只猴和群體猴中隨機提取具有代表性的各行為關鍵幀的展示,其中單只猴視頻共808條,包括臥倒(47條)、蹲坐(250條)、行走(66條)、向上移動(101條)、向下移動(99條)、懸掛(100條)、直立(111條)、攀附(34條);群體猴視頻共3 041條,臥倒(107條)、蹲坐(17條)、行走(995條)、向上移動(445條)、向下移動(484條)、進食(497條)、直立(84條)、攀附(412條)。行為段的視頻格式為.mp4,幀率為15 幀/s或60 幀/s。臥倒、蹲坐、行走、向上移動、向下移動、懸掛、直立、攀附和進食九類行為段的數目分別為154、267、1 061、546、583、100、195、446和497,共計3 849條行為段,總時長為7.03 h,平均視頻時長為6.58 s。這九類獼猴行為片段構成了獼猴行為數據集MBVD-9。

2 網絡結構
TAS-MBR網絡的基礎架構是SlowFast。SlowFast分為慢支路、快支路及側向連接三部分。其中,慢支路是為了獲取視頻中的語義信息,采樣間隔較大,輸入的視頻幀個數少。快支路為了獲取視頻中的行為信息,采樣間隔較小,輸入的視頻幀個數多。側向連接是將快支路中得到的信息融合到慢支路中,以得到視頻的完整信息。TAS-MBR網絡的思想是通過引入殘差幀和Transformer編碼的操作讓快支路更準確地提取視頻中的行為信息,進而提升整個網絡的效果。
TAS-MBR網絡結構如圖3所示。從整體上看,TAS-MBR網絡屬于雙支路結構,與原始的SlowFast相比骨干網絡由三層殘差結構卷積塊改成兩層的,類似于34層的R3D。不同之處在于,所有殘差塊的第二層為1 × 3 × 3卷積,并且慢支路的殘差塊2和殘差塊3的第一層也為1 × 3 × 3卷積。

在開始的數據層,慢支路和快支路分別采用不同的幀采樣間隔來對輸入的視頻進行采樣。其采樣間隔大小比例為4。慢支路為了提取視頻幀的表征信息,對應層數的卷積核較多,比例為8。在快支路中對于視頻幀額外進行了幀間差和Transformer編碼操作。在兩條支路獲得各自的信息之后通過側向連接進行信息的融合。側向連接是一種卷積操作,將快支路在殘差塊2~殘差塊5得到的信息融合到慢支路中對應的殘差塊2~殘差塊5中,以此獲取視頻的時空信息。最后,時空信息是經過池化層和全連接層,使用歸一化指數函數(Softmax)對特征信息進行分類。
2.1 慢支路
慢支路中對原始視頻的采樣間隔大,輸入視頻幀較少。在TAS-MBR網絡中,初始視頻幀個數為32,慢支路的采樣間隔為8,輸入的視頻幀個數為4,殘差塊2~殘差塊5卷積核個數依次為128、256、512、1 024。慢支路主要目的是為了獲得視頻的空間表征信息。
2.2 快支路
快支路對原始視頻的采樣間隔小,輸入視頻幀個數為16,殘差塊2~殘差塊5卷積核個數依次為16、32、512和1 024。快支路主要目的是為了獲得視頻的時間信息。殘差幀,通過前后兩幀相減來獲得幀之間的運動信息,去除了靜止的物體和背景。這與快支路的目標一致,即盡可能多關注運動信息。殘差幀(以符號ResFrame表示)的計算公式如式(1)所示:
![]() |
其中,Framei 指的是第i幀,ResFramei為第i + 1幀減去第i幀得到的第i個殘差幀。在TAS-MBR網絡中,初始視頻幀個數為32,將輸入幀轉化為殘差幀,快支路的采樣間隔為2,輸入的殘差幀個數為16。在殘差塊5后面加入了Transformer編碼結構,尋找幀之間的運動關系。
2.3 側向連接
為了能夠將快支路得到的運動信息和慢支路得到的語義信息進行融合,提出了側向連接的概念[27]。側向連接出現在殘差塊2~殘差塊5之后,將快支路得到的時間信息與慢支路對應殘差塊得到的語義信息融合之后,通過三維卷積操作來實現特征圖尺寸的匹配和相加。整體上,本網絡的主要結構是基于SlowFast的雙支路結構。與文獻[18]提出的SlowFast不同之處在于:① 殘差塊2~殘差塊5從原網絡的三層卷積變成了兩層卷積,卷積的個數也不同,慢、快支路卷積核的比例為8:1;② 在快支路中輸入幀之間進行相減處理,使之成為殘差幀;③ 快支路在經過殘差塊5之后,使用Transformer編碼結構對特征圖進行處理,使其獲得更多的時間信息。
3 實驗
3.1 實驗數據集
本文在MBVD-9上評估所提出的網絡架構。MBVD-9數據集中是由不同性別、不同年齡段、不同視角的恒河猴和食蟹猴視頻行為片段組成。該數據集共有9類獼猴行為,分別是臥倒、蹲坐、行走、向上移動、向下移動、懸掛、直立、攀附和進食。視頻格式為.mp4,幀率為15 幀/s或60 幀/s,數量共計3 849條,總時長為7.03 h,平均視頻時長為6.58 s,視頻幀數不小于30幀。為保證數據分布大體一致,每類行為隨機抽取1/4作為測試集數據,剩余數據作為訓練集數據。其中訓練集2 874條,驗證集975條,劃分比例為3:1。
3.2 實驗條件
實驗計算機顯存大小為24 GB,硬盤大小為12 T。CPU核心個數為64,顯卡個數為4。網絡訓練采用小批量隨機梯度下降法,動量為0.9,初始學習率為0.001,隨后動態更新學習率,當準確率不再上升,學習率就縮小為原來的1/10,批大小為16,訓練輪數為100。
在數據處理方面,將視頻幀隨機裁剪為112 × 112。依據視頻長短采用不同的幀采樣間隔(以符號frameinterval表示)進行采樣,具體如式(2)所示:
![]() |
視頻的總幀數與幀采樣間隔之間的關系如式(2)所示,幀采樣間隔的大小隨著視頻總幀數升高而遞增,可以更加全面地獲得視頻信息。采樣幀有50%的概率進行水平翻轉,輸入到網絡中個數為32。網絡的慢、快支路中輸入幀個數分別為4和16。
3.3 殘差幀和Transformer有效性評估
如表2所示,SlowFast的骨干結構對識別準確率影響較大。相對于骨干網絡使用101層的Resnet和50層的Resnet,TAS-MBR網絡較為輕量的骨干網絡更適合處理MBVD-9數據集。以TAS-MBR-1、TAS-MBR-2、TAS-MBR-3分別代表:未使用殘差幀和Transformer操作的TAS-MBR網絡、未使用Transformer操作的TAS-MBR網絡和未使用殘差幀操作的TAS-MBR網絡。如表2所示,殘差幀和Transformer對分類準確率均有提升,證明了殘差幀和Transformer對于本網絡的有效性。TAS-MBR網絡相較于使用50層Resnet為骨干網絡的SlowFast,識別準確率有明顯提升。

3.4 與其他網絡的比較
為了驗證TAS-MBR網絡的性能,將TAS-MBR網絡與其它行為識別網絡在MBVD-9數據集上進行了實驗。本次實驗的網絡有C3D、雙流膨脹三維卷積網絡(inflated three dimensional convnet,I3D)[26]、時空分離的R3D(R(2+1)D)[27]、時間分段網絡(temporal segment networks,TSN)[28]、雙流卷積神經網絡、時空Transformer(time-space transformer,Timesformer)網絡[29]和TAS-MBR網絡。各網絡的平均分類準確率如表3所示,其中C3D和Timesformer網絡在采用了大數據集預訓練的情況下與TAS-MBR網絡不采用大數據集預訓練效果接近。如表3所示,在其他網絡均采用了大數據集預訓練的情況下TAS-MBR網絡仍達到了最優效果。

3.5 獼猴各類行為分類準確率
在驗證了TAS-MBR網絡的有效性之后,本實驗給出了TAS-MBR網絡在MBVD-9數據集上對獼猴各類行為的分類準確率。臥倒、蹲坐、行走、向上移動、向下移動、懸掛、直立、攀附和進食的準確率分別為90.86%、91.37%、96.54%、93.87%、93.94%、99.46%、93.03%、94.35%和93.77%。TAS-MBR網絡對于獼猴九類行為的分類準確率都在90%以上,分類效果良好。其中懸掛的準確率最高,達到了99.46%,可能是由于動作較為舒展,易于網絡識別。臥倒的準確率最低,為90.86%,可能是由于動作較為隱蔽,較難識別。如圖4所示,臥倒與蹲坐容易互相干擾,可能是動作姿勢相近,導致這兩類動作準確率較低。

4 結論
本文從實際場景出發拍攝、記錄獼猴的行為,并提出TAS-MBR卷積神經網絡,進而準確、快速地識別獼猴的行為。本文的主要貢獻在于:① 提出了可供研究的獼猴行為數據集MBVD-9,包含三個視角共九類獼猴的行為視頻;② 利用殘差幀和Transformer模塊改進了原有的SlowFast的快支路,提高了分類準確率;③ 提出了TAS-MBR網絡,并在獼猴行為數據集上達到了最優效果。通過實驗證明了殘差幀和Transformer對于SlowFast快支路中時間信息獲取的有效性和TAS-MBR網絡對獼猴行為分類的準確性。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:仲偉峰主要負責提供數據分析指導以及論文審閱修訂;徐哲主要負責論文撰寫、數據處理、算法設計和實驗設計與分析;朱翔昱主要負責提供實驗指導和算法設計指導;馬喜波主要負責項目主持、數據收集及整理、論文撰寫指導。
倫理聲明:本研究通過了中國科學院自動化研究所的動物倫理委員會審核(批文編號:IA-202042)。
0 引言
現代藥物研發可分為臨床前和臨床試驗兩個階段[1]。藥物安全性評估是臨床前研究新藥潛在風險和有效性的基礎[2]。獼猴與人同屬靈長類動物,遺傳關系接近。獼猴在藥物的安全性評估中常被作為模式動物[3],其行為在用藥前后的變化往往會警示藥物的相關副作用[4]。因此,獼猴行為的準確識別對藥物安全性評估至關重要。
目前,行為識別方法大致可分為兩類:基于手工特征提取的方法和基于深度學習的方法[5]。手工特征提取方法中的方向梯度直方圖(histogram of oriented gradients,HOG)、方向光流直方圖(histogram of oriented optical flow,HOF)和運動邊界直方圖(motion boundary histogram,MBH)等能夠對時空興趣點的特征進行表示而識別不同行為[6-8]。另外,通過對特征點的軌跡追蹤來對運動狀態進行描述,也屬于基于手工特征提取方法,例如Messing等[9]提出了密集軌跡法(dense trajectories,DT),Wang等[10]提出了改進的密集軌跡法(improved dense trajectories,IDT)。然而,基于手工特征提取的方法局限性較大,難以全面地提取視頻的特征信息,近年來深度學習的興起,為行為識別提供了新的思路[11]。深度學習中行為識別網絡大致可分為三類:雙流卷積神經網絡(two-stream convolution neural networks,Two-Stream CNN)、三維卷積神經網絡(three dimensional convolution neural networks,3D-CNN)和長短時記憶(long short-term memory,LSTM)網絡。Simonyan等[12]提出的雙流卷積神經網絡中空間流輸入的是紅綠藍(red,green,blue,RGB)色彩模式的視頻幀,時間流中的輸入的是光流圖像,隨后兩條支路的信息融合而獲得視頻的時空信息特征[13]。相較于雙流卷積神經網絡中用兩條支路分別獲得視頻的時空信息,三維卷積神經結構能夠同時提取時空特征,使得網絡結構更加直觀和高效。Tran等[14]提出了一種卷積三維(convolutional three dimensional,C3D)網絡,其輸入是連續的視頻幀,可以同時提取空間和時間維度的信息。Christoph等[15]把殘差網絡(residual networks, Resnet)用到視頻領域,當與三維卷積結合后,提出了三維Resnet(three dimensional Resnet,R3D)[16]。此外,在LSTM的發展中,Donahue等[17]把卷積神經網絡和LSTM結合起來提出了長時循環神經網絡(long-term recurrent convolutional networks,LRCN)。LRCN將從卷積神經網絡中得到的特征輸入到LSTM網絡中,利用卷積神經網絡和LSTM網絡兩種結構全面地對視頻特征進行提取。
受到時間分辨率與時空信息關系的啟發,Feichtenhofer等[18]提出了慢快網絡(slowfast networks,SlowFast)。它是一種類雙流卷積神經網絡,分為慢支路和快支路。慢支路中時間采樣率低,卷積核通道數多,主要獲取視頻中的語義信息。快支路中時間采樣率高,卷積核通道數少,主要獲取視頻中的行為信息。在兩條支路相對應的殘差塊(residual block)之后進行側向連接將信息融合[16, 18]。SlowFast的上述特征,使得該網絡是目前行為識別效果最好的網絡之一[18-19]。為了獲得視頻中的幀與幀之間的關系,近幾年已將變換器(Transformer)應用于行為識別中[20-21]。Transformer采用的是自注意力機制,可以有效地對時序關系進行建模[22]。除了網絡結構的變化外,Tao等[23]提出將殘差幀(residual frames)作為網絡中時間流的輸入,用于更有效地獲得運動信息。殘差幀只保留了相鄰幀之間的變化信息,使得時間流網絡避免了背景等信息的干擾。
上述行為識別方法在區分人類行為時得到了廣泛應用,然而面向獼猴行為的識別方法卻少之又少。現有的獼猴行為識別方法是在姿態估計的基礎上將關節點坐標化并進行聚類[24]。此方法的中間步驟較多,不屬于端到端的識別方法。由于獼猴的體型小和行為特征復雜,其行為識別面臨以下三個難點:① 獼猴姿態豐富,毛發較多,拍攝難度大;② 獼猴的關節靈活,且某些行為類型差異較小;③ 不同行為完成時間差異較大,如:獼猴的跳躍行為起止時間可能短至1~2 s,而蹲坐可長達幾十分鐘。針對難點 ① 和 ②,本文采用三視角的拍攝方法,從正視、側視和俯視三個角度來拍攝獼猴,在數據采集階段保證行為片段的準確性和完整性。針對難點 ③,在視頻幀輸入到網絡之前根據視頻的時間長短進行不同幀間隔地均勻采樣,使輸入數據盡可能包含長時間的信息。鑒于SlowFast的有效性和Transformer捕獲長時間內幀與幀之間關系的能力,本文提出一種將SlowFast和Transformer結合的網絡結構,用以識別獼猴在視頻中的行為。該網絡命名為Transformer增強的用于獼猴行為識別的SlowFast(Transformer augmented SlowFast for macaque behavior recognition,TAS-MBR)網絡。
本文創建了一個包含九類獼猴行為的視頻數據集(a nine kinds of macaque behaviors video dataset,MBVD-9),并提出了TAS-MBR網絡來進行獼猴行為自動識別。TAS-MBR網絡為獼猴行為的自動識別提供了新方法,是人工智能和獼猴行為監測的有效結合。最終,期望本文方法能夠實現獼猴行為的遠程監測和識別,為藥物安全性評估智能化助力。
1 獼猴行為數據集的構建
卷積神經網絡的訓練需要大量的數據,因此本研究首先需要得到一個可供藥物安全性評估的獼猴行為數據集。數據集的生成可分為六個步驟:拍攝環境的選擇、攝像機的選擇及其固定裝置設計、雙視角或三視角拍攝、實驗動物挑選、視頻數據清洗和行為片段裁剪。
1.1 拍攝環境的選擇
本文中獼猴視頻數據采集地點是位于北京市的北京協爾鑫生物資源研究所有限責任公司和昭衍新藥研究中心股份有限公司。實驗動物來源于北京協爾鑫生物資源研究所有限責任公司和昭衍新藥研究中心股份有限公司培育和飼養的獼猴。本文研究通過了中國科學院自動化研究所的動物倫理委員會審核(實驗動物許可證號IA-202042)。拍攝場景是在長 × 寬 × 高分別為74 cm × 69 cm × 89 cm和110 cm × 140 cm × 220 cm的鐵制猴籠中進行拍攝。這兩種規格的猴籠分別是單只獼猴和群體獼猴(5只)的成長和實驗環境。單只獼猴數據采集時間是從2020年8月13日—2020年11月23日,歷時92 d。群體獼猴數據采集時間是2021年6月21日—2021年6月24日,歷時4 d。
1.2 攝像機的選擇及其固定裝置設計
拍攝獼猴視頻選擇的是霸天安攝像頭(旗艦版,深圳市霸天安科技有限公司,中國),形狀是正方體,長、寬、高均為3.8 cm。攝像頭的分辨率為960 × 1 280,幀率設置為15 幀/s或60 幀/s,鏡頭視角為155°。
數據采集過程中,由于獼猴生性好動,若將攝像頭暴露于猴籠表面進行拍攝,將出現啃咬攝像頭和抓撓充電線的情況。因此,本課題組專門制作了攝像頭固定裝置來安放攝像頭,以利于數據采集。
1.3 雙視角或三視角拍攝
單只獼猴由于飼養場地限制,只能進行雙視角拍攝。群體獼猴是從正視、側視和俯視三個角度同時拍攝。攝像頭視角為155°,若是只取特定視角對獼猴進行拍攝,會出現視野盲區,可能丟失某類行為。相較于文獻[24]中實驗所需的62臺攝像機,本研究僅需兩臺或三臺攝像機便可全面、有效地記錄獼猴的行為,因此本研究從設備層面上更加經濟、實用。視頻采集的裝置可分為三部分:猴籠、攝像機和固定裝置。整體結構及效果如圖1所示。固定裝置位于各表面中間位置,其高度為50 cm,以防止獼猴將手臂伸出猴籠后抓撓到攝像頭電線。

1.4 實驗動物挑選
本研究的實驗對象是恒河猴和食蟹猴。恒河猴和食蟹猴均是實驗用獼猴,是藥物安全性評估中的代表動物[25]。為了盡可能涵蓋藥物安全性評估中實驗對象的生長時期和性別,本研究分別拍攝了幼年、成年和老年時期不同性別的恒河猴和食蟹猴。本研究拍攝時的狀態環境劃分為單只猴場景和群體猴場景,共設置9只猴籠,依序編號。實驗動物信息如表1所示,其中群體猴視頻場景中獼猴均處于幼年期且性別不統一。

1.5 視頻數據清洗和行為片段裁剪
在拍攝視頻時,不可避免地出現了“臟數據”,指難以被人眼識別獼猴行為的視頻數據。因此拍攝完成后需要進行數據清洗,剔除掉質量不佳的視頻。獼猴行為類別確定的標準是行為完整可見且明確定義的。本研究中將獼猴的行為分成九類,分別是臥倒、蹲坐、行走、向上移動、向下移動、懸掛、直立、攀附和進食。本文采用的是視頻播放軟件PotPlayer(1.7.21564,Daum Inc.,韓國),播放時在文本文檔中記錄視頻名稱、行為開始時間、行為結束時間和行為類別。若是群體獼猴的視頻還需要利用標注軟件VoTT(v2.2,Microsoft Inc.,美國)標注行為時間段內活動區域的范圍,以區分同一時間段內其它獼猴。然后編寫腳本批量裁剪獼猴行為片段。如圖2所示,為單只猴和群體猴中隨機提取具有代表性的各行為關鍵幀的展示,其中單只猴視頻共808條,包括臥倒(47條)、蹲坐(250條)、行走(66條)、向上移動(101條)、向下移動(99條)、懸掛(100條)、直立(111條)、攀附(34條);群體猴視頻共3 041條,臥倒(107條)、蹲坐(17條)、行走(995條)、向上移動(445條)、向下移動(484條)、進食(497條)、直立(84條)、攀附(412條)。行為段的視頻格式為.mp4,幀率為15 幀/s或60 幀/s。臥倒、蹲坐、行走、向上移動、向下移動、懸掛、直立、攀附和進食九類行為段的數目分別為154、267、1 061、546、583、100、195、446和497,共計3 849條行為段,總時長為7.03 h,平均視頻時長為6.58 s。這九類獼猴行為片段構成了獼猴行為數據集MBVD-9。

2 網絡結構
TAS-MBR網絡的基礎架構是SlowFast。SlowFast分為慢支路、快支路及側向連接三部分。其中,慢支路是為了獲取視頻中的語義信息,采樣間隔較大,輸入的視頻幀個數少。快支路為了獲取視頻中的行為信息,采樣間隔較小,輸入的視頻幀個數多。側向連接是將快支路中得到的信息融合到慢支路中,以得到視頻的完整信息。TAS-MBR網絡的思想是通過引入殘差幀和Transformer編碼的操作讓快支路更準確地提取視頻中的行為信息,進而提升整個網絡的效果。
TAS-MBR網絡結構如圖3所示。從整體上看,TAS-MBR網絡屬于雙支路結構,與原始的SlowFast相比骨干網絡由三層殘差結構卷積塊改成兩層的,類似于34層的R3D。不同之處在于,所有殘差塊的第二層為1 × 3 × 3卷積,并且慢支路的殘差塊2和殘差塊3的第一層也為1 × 3 × 3卷積。

在開始的數據層,慢支路和快支路分別采用不同的幀采樣間隔來對輸入的視頻進行采樣。其采樣間隔大小比例為4。慢支路為了提取視頻幀的表征信息,對應層數的卷積核較多,比例為8。在快支路中對于視頻幀額外進行了幀間差和Transformer編碼操作。在兩條支路獲得各自的信息之后通過側向連接進行信息的融合。側向連接是一種卷積操作,將快支路在殘差塊2~殘差塊5得到的信息融合到慢支路中對應的殘差塊2~殘差塊5中,以此獲取視頻的時空信息。最后,時空信息是經過池化層和全連接層,使用歸一化指數函數(Softmax)對特征信息進行分類。
2.1 慢支路
慢支路中對原始視頻的采樣間隔大,輸入視頻幀較少。在TAS-MBR網絡中,初始視頻幀個數為32,慢支路的采樣間隔為8,輸入的視頻幀個數為4,殘差塊2~殘差塊5卷積核個數依次為128、256、512、1 024。慢支路主要目的是為了獲得視頻的空間表征信息。
2.2 快支路
快支路對原始視頻的采樣間隔小,輸入視頻幀個數為16,殘差塊2~殘差塊5卷積核個數依次為16、32、512和1 024。快支路主要目的是為了獲得視頻的時間信息。殘差幀,通過前后兩幀相減來獲得幀之間的運動信息,去除了靜止的物體和背景。這與快支路的目標一致,即盡可能多關注運動信息。殘差幀(以符號ResFrame表示)的計算公式如式(1)所示:
![]() |
其中,Framei 指的是第i幀,ResFramei為第i + 1幀減去第i幀得到的第i個殘差幀。在TAS-MBR網絡中,初始視頻幀個數為32,將輸入幀轉化為殘差幀,快支路的采樣間隔為2,輸入的殘差幀個數為16。在殘差塊5后面加入了Transformer編碼結構,尋找幀之間的運動關系。
2.3 側向連接
為了能夠將快支路得到的運動信息和慢支路得到的語義信息進行融合,提出了側向連接的概念[27]。側向連接出現在殘差塊2~殘差塊5之后,將快支路得到的時間信息與慢支路對應殘差塊得到的語義信息融合之后,通過三維卷積操作來實現特征圖尺寸的匹配和相加。整體上,本網絡的主要結構是基于SlowFast的雙支路結構。與文獻[18]提出的SlowFast不同之處在于:① 殘差塊2~殘差塊5從原網絡的三層卷積變成了兩層卷積,卷積的個數也不同,慢、快支路卷積核的比例為8:1;② 在快支路中輸入幀之間進行相減處理,使之成為殘差幀;③ 快支路在經過殘差塊5之后,使用Transformer編碼結構對特征圖進行處理,使其獲得更多的時間信息。
3 實驗
3.1 實驗數據集
本文在MBVD-9上評估所提出的網絡架構。MBVD-9數據集中是由不同性別、不同年齡段、不同視角的恒河猴和食蟹猴視頻行為片段組成。該數據集共有9類獼猴行為,分別是臥倒、蹲坐、行走、向上移動、向下移動、懸掛、直立、攀附和進食。視頻格式為.mp4,幀率為15 幀/s或60 幀/s,數量共計3 849條,總時長為7.03 h,平均視頻時長為6.58 s,視頻幀數不小于30幀。為保證數據分布大體一致,每類行為隨機抽取1/4作為測試集數據,剩余數據作為訓練集數據。其中訓練集2 874條,驗證集975條,劃分比例為3:1。
3.2 實驗條件
實驗計算機顯存大小為24 GB,硬盤大小為12 T。CPU核心個數為64,顯卡個數為4。網絡訓練采用小批量隨機梯度下降法,動量為0.9,初始學習率為0.001,隨后動態更新學習率,當準確率不再上升,學習率就縮小為原來的1/10,批大小為16,訓練輪數為100。
在數據處理方面,將視頻幀隨機裁剪為112 × 112。依據視頻長短采用不同的幀采樣間隔(以符號frameinterval表示)進行采樣,具體如式(2)所示:
![]() |
視頻的總幀數與幀采樣間隔之間的關系如式(2)所示,幀采樣間隔的大小隨著視頻總幀數升高而遞增,可以更加全面地獲得視頻信息。采樣幀有50%的概率進行水平翻轉,輸入到網絡中個數為32。網絡的慢、快支路中輸入幀個數分別為4和16。
3.3 殘差幀和Transformer有效性評估
如表2所示,SlowFast的骨干結構對識別準確率影響較大。相對于骨干網絡使用101層的Resnet和50層的Resnet,TAS-MBR網絡較為輕量的骨干網絡更適合處理MBVD-9數據集。以TAS-MBR-1、TAS-MBR-2、TAS-MBR-3分別代表:未使用殘差幀和Transformer操作的TAS-MBR網絡、未使用Transformer操作的TAS-MBR網絡和未使用殘差幀操作的TAS-MBR網絡。如表2所示,殘差幀和Transformer對分類準確率均有提升,證明了殘差幀和Transformer對于本網絡的有效性。TAS-MBR網絡相較于使用50層Resnet為骨干網絡的SlowFast,識別準確率有明顯提升。

3.4 與其他網絡的比較
為了驗證TAS-MBR網絡的性能,將TAS-MBR網絡與其它行為識別網絡在MBVD-9數據集上進行了實驗。本次實驗的網絡有C3D、雙流膨脹三維卷積網絡(inflated three dimensional convnet,I3D)[26]、時空分離的R3D(R(2+1)D)[27]、時間分段網絡(temporal segment networks,TSN)[28]、雙流卷積神經網絡、時空Transformer(time-space transformer,Timesformer)網絡[29]和TAS-MBR網絡。各網絡的平均分類準確率如表3所示,其中C3D和Timesformer網絡在采用了大數據集預訓練的情況下與TAS-MBR網絡不采用大數據集預訓練效果接近。如表3所示,在其他網絡均采用了大數據集預訓練的情況下TAS-MBR網絡仍達到了最優效果。

3.5 獼猴各類行為分類準確率
在驗證了TAS-MBR網絡的有效性之后,本實驗給出了TAS-MBR網絡在MBVD-9數據集上對獼猴各類行為的分類準確率。臥倒、蹲坐、行走、向上移動、向下移動、懸掛、直立、攀附和進食的準確率分別為90.86%、91.37%、96.54%、93.87%、93.94%、99.46%、93.03%、94.35%和93.77%。TAS-MBR網絡對于獼猴九類行為的分類準確率都在90%以上,分類效果良好。其中懸掛的準確率最高,達到了99.46%,可能是由于動作較為舒展,易于網絡識別。臥倒的準確率最低,為90.86%,可能是由于動作較為隱蔽,較難識別。如圖4所示,臥倒與蹲坐容易互相干擾,可能是動作姿勢相近,導致這兩類動作準確率較低。

4 結論
本文從實際場景出發拍攝、記錄獼猴的行為,并提出TAS-MBR卷積神經網絡,進而準確、快速地識別獼猴的行為。本文的主要貢獻在于:① 提出了可供研究的獼猴行為數據集MBVD-9,包含三個視角共九類獼猴的行為視頻;② 利用殘差幀和Transformer模塊改進了原有的SlowFast的快支路,提高了分類準確率;③ 提出了TAS-MBR網絡,并在獼猴行為數據集上達到了最優效果。通過實驗證明了殘差幀和Transformer對于SlowFast快支路中時間信息獲取的有效性和TAS-MBR網絡對獼猴行為分類的準確性。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:仲偉峰主要負責提供數據分析指導以及論文審閱修訂;徐哲主要負責論文撰寫、數據處理、算法設計和實驗設計與分析;朱翔昱主要負責提供實驗指導和算法設計指導;馬喜波主要負責項目主持、數據收集及整理、論文撰寫指導。
倫理聲明:本研究通過了中國科學院自動化研究所的動物倫理委員會審核(批文編號:IA-202042)。