人體動作識別(HAR)是智慧醫療、體育訓練、視頻監控等眾多領域的技術基礎,受到社會各界的廣泛關注。本文概述了 HAR 的研究進展及意義,將其歸納為動作捕捉和基于深度學習的動作分類兩個過程。首先,詳細介紹了基于視頻、基于深度相機以及基于慣性傳感器的三種主流動作捕捉方式,列舉了常用的動作數據集。其次,從特征自動提取及多模態特征融合兩方面來描述基于深度學習的 HAR,并介紹了正骨康復訓練中如何通過 HAR 實現監督鍛煉和模擬訓練。最后,討論了 HAR 的精準動作捕捉、多模態特征融合方法,以及在正骨康復訓練應用中的重點和難點。本文通過總結以上內容旨在快速地引導研究人員了解 HAR 的研究現狀及其在正骨康復訓練中的應用。
引用本文: 邢蒙蒙, 魏國輝, 劉靜, 張俊忠, 楊鋒, 曹慧. 多模態人體動作表示識別及其正骨康復訓練應用綜述. 生物醫學工程學雜志, 2020, 37(1): 174-178, 184. doi: 10.7507/1001-5515.201906053 復制
引言
人體動作識別(human action recognition,HAR)的目的是確定人體動作類別,以獲取人體行為信息。人體動作可以反映出最終的行為目的等豐富的信息,而人體肢體的活動完成度一直以來都是腦卒中患者和骨折患者健康恢復程度的評價標準。近年來,因人體動作信息中蘊含很多重要的生理、病理信息,因此對人體動作信息的有效提取已經引起相關領域研究人員的廣泛關注。通過計算機進行有效的 HAR,已在智慧醫療[1]、體育訓練[2]、視頻監控[3]等領域實現了廣泛的發展,例如:在醫療衛生領域,記錄肢體損傷患者康復動作并分析其完成程度,及時調整康復訓練方案,能夠有效減少人力資源的過度占用,實現智慧醫療;在體育訓練領域,記錄優秀運動員的運動信息,能夠幫助其它運動員制定精準有效的動作訓練方案;在視頻監控方面,計算機系統通過監督識別老人的日常生活動作達到健康監護的目的;另一方面,在公共場所中識別人體可疑動作反饋給安保人員,還能夠預防突發危機。
研究人員一直致力于完整捕捉人體動作并實現精確識別,但人體動作具有時間和空間上的雙重復雜性以及完整可變性,使得 HAR 技術仍然面臨許多困境。在時間維度上,不同人體動作的持續時間、動作速率、動作順序不盡相同,甚至不同的測試對象展示相同的動作也會由于個體差異性導致動作信息不一致;在空間維度上,人體活動范圍不固定,而要達到 HAR 的目的則要求動作捕捉裝置能夠時刻跟隨人體;或者即使運動過程中活動范圍固定,但由于人體動作多自由度變化,受測對象會因為背景遮擋、自身遮擋而無法捕捉到完整動作信息,從而影響對人體動作的識別。此外,人體活動場景一般較為復雜,常受諸多內外因素干擾,致使所采集運動數據信噪比很低,后續動作識別準確率難以提高等問題出現,因此實際使用過程中對 HAR 的高效性和準確性提出了更高要求。現在隨著慣性傳感器和深度相機的發展,利用傳感器信號、深度圖像等多種模態信號表征人體動作則能夠克服以上動作捕捉的困難。
中醫正骨是指利用特定的手法治療骨關節損傷,具有顯著的臨床骨科康復治療效果。隨著科學技術發展和醫學理念的進步,中醫正骨結合個性化康復訓練治療骨傷,能夠提升患者的康復進度。個性化康復訓練需要醫生實時監督指導并及時調整訓練任務,但受醫護人員數量及精力的限制使得其難以有效實施。HAR 的發展為正骨康復訓練提供了新的研究思路,動作捕捉技術可以獲取康復訓練動作的信息,通過計算機系統將動作的執行情況進行分類識別并反饋給醫生,能夠有效地減少醫護人員的工作量。多模態信息表示人體動作在 HAR 中的有效應用,使得中醫正骨研究人員開始采用多模態信號表征中醫推拿手法以研究其作用機制。結合運動學知識實現推拿手法數據化,有助于總結正骨手法的臨床操作經驗。本文基于上述問題,通過概述目前人體動作捕捉的主流方式,理清深度學習方法在 HAR 中的應用,為后續中醫正骨康復治療的研究提供可借鑒的思路。
1 動作捕捉方法及常用的人體動作數據集
1.1 動作捕捉方法及性能對比
HAR 的實現首先要獲得人體在三維空間中的運動數據,追蹤記錄人體運動的過程稱之為動作捕捉。動作捕捉技術從原理上可分為 4 種,分別是:機械式、聲學式、電磁式、光學式動作捕捉,各種動作捕捉方式性能對比如表1 所示[4]。現在,隨著科學技術的發展,應用最廣泛的動作捕捉主要是基于視頻、慣性傳感器、深度相機等 3 種方式。

1.1.1 基于視頻的動作捕捉
自 20 世紀 80 年代開始,基于計算機視覺的動作分類一直是 HAR 的研究熱點,研究者們通過視頻記錄運動過程的方式已建立了大量的數據集[5]。但由于人體活動范圍不固定,易受外界環境干擾,視頻記錄需要多視角共同作用等問題,使得基于視頻實現 HAR 一直難以達到人類視覺感知的準確度。
1.1.2 基于深度相機的動作捕捉
為解決普通攝像機易受光照影響的問題,研究人員提出利用深度相機捕捉人體動作軌跡。通過深度相機捕捉到的圖像為深度圖像,也可稱之為距離圖像,深度圖像中的每個像素記錄著目標物體到相機之間的距離信息。目前應用最廣泛的深度相機是 Kinect(Kinect V2,Microsoft Corporation,美國)。例如:Alt Murphy 等[6]通過使用三維運動捕捉技術來分析測試對象是否有上肢損傷,具體方式是使用 5 個攝像機收集手臂、軀干和臉部上的 9 個逆向反射標記的坐標達到數據采集目的。Kinect 捕捉肢體運動軌跡現在越來越多地用在運動訓練及康復運動性能評估領域。
1.1.3 基于慣性傳感器的動作捕捉
隨著微電子機械系統(micro electro mechanical systems,MEMS)的快速發展,利用慣性測量單元(inertial measurement unit,IMU)來表征人體運動信息能夠解決動作捕捉中活動范圍固定問題。一個 IMU 通常包括加速度計和陀螺儀,可以采集運動對象運動過程中的加速度、角速度數據,并且 IMU 價格低廉,可以大規模開發利用。現在 IMU 主要用于運動監測,例如:Callejas-Cuervo 等[7]建立了基于慣性傳感器的技術平臺,該平臺可以實現手臂彎曲運動的關節振幅監測,實驗結果證明該平臺也可以用于遠程康復治療。
1.2 公共人體動作數據集
為了客觀公正地評價 HAR 算法性能的優劣,國內外的研究機構對外公開了一些人體運動數據集。目前應用較廣泛的公共人體運動數據集有:基于多傳感器數據融合動作識別系統數據集(activity recognition system based on multisensor data fusion,AReM)[8],該數據庫利用智能手機中的嵌入式傳感器來采集數據,并且記錄了環境傳感器采集的數據;德州大學奧斯汀分校交互數據集(utexas introduction,UT-Interaction)[9],該數據集以視頻的形式記錄了兩個及多人的互動動作數據,這些交互動作是連續或同時發生;微軟研究院日常活動三維數據集(microsoft research daily activity 3D,MSR Daily Activity 3D)[10],該數據集采用 Kinect 來捕捉人體的運動軌跡;德州大學達拉斯分校多模態人類動作數據集(university of texas at dallas multimodal human action datase,UTD-MHAD)[11],該數據集同時使用 Kinect 和無線傳感器來捕捉人體運動信息,共記錄視頻、深度視頻、骨架關節點位置和慣性傳感器信號共 4 種類型的運動信息。
2 人體動作識別
2.1 多模態動作數據的手工特征提取
人體動作數據是持續的時序動作數據,數據量較大且易存在冗余數據。在動作分類之前進行特征提取,能夠最大限度地提高模型的分類精確度。傳統的視頻特征提取是基于密集軌跡算法提取定向光流直方圖(histograms of oriented optical flow,HOF)[12]、梯度方向直方圖(histogram of oriented gradient,HOG)[13]、軌跡特征等特征。人體骨骼框架模型是一種基于人體形態特征的人體表現方法,可以通過視頻中的關節點估計處理或通過深度相機直接獲得。Yao 等[14]提出運動骨架描述符,能夠融合人體部位動作的相對幾何速度、相對關節位置和關節角度等 3 個互補特征。慣性傳感器捕捉到的人體動作數據通常是加速度、角速度、磁力數據,研究人員一般利用滑動窗口在以上時序數據上取樣獲得均值、標準差、頻率偏態、自回歸系數、頻率光譜能量等統計學特征[15-16]。
2.2 基于深度學習的人體動作識別應用
2.2.1 深度學習實現多模態動作表示識別
深度學習是通過模擬人腦分析數據建立起來的模型,能夠分析海量數據中的非線性關系,具有更高的特征提取效率,并能根據提取的特征進行準確的分類和預測[17]。深度學習的具體分類如表2 所示。

深度學習可以從大數據中自動提取數據特征,實現了從原始數據到分類識別的端到端處理。與手工特征提取相比,深度學習能夠有效地解決動作類別的類內差異性和類間相似性問題[18]。張瑞等[19]通過卷積神經網絡(convolutional neural network,CNN)中不同的卷積層、池化層,降低了人體運動視頻的特征向量維度,實現了高效地動作識別。Pham 等[20]提出了一個基于殘差網絡的端到端學習框架,并利用新型深度架構來構建陡峭的殘差網絡,該網絡在動作分類過程中能夠預防模型的過擬合問題。Li 等[21]利用深度堆疊自動編碼器和多層稀疏自動編碼器自動提取傳感器數據特征進行分類,并對比通過手工提取特征進行分類的結果,結果顯示通過特征自動提取的方法進行分類的效果更好,準確率提高了 0.5%。胡雙杰等[22]設計了一種由兩層級聯的長短期記憶(long short-term memory,LSTM)RNN 組成的跌倒檢測算法,該算法可以實現跌倒動作特征的自動提取。
利用單模態信息難以實現動作準確分類,于是研究人員開始探索使用多模態信息進行特征融合以實現高效地動作識別。裴曉敏等[23]使用 CNN 聯合 LSTM 網絡的方法得到了骨架序列的時空融合特征,使用融合特征進行動作分類,達到了 83.2% 的分類準確率,結果證明該方法能夠識別多視角下的人體動作。Eitel 等[24]提出訓練兩個獨立的 CNN 分別處理彩色圖像和深度圖像,在 CNN 的全連接層完成特征數據融合,形成了新的目標識別結構。通過對比單模態動作識別的準確率,結果顯示多模態特征層融合的方式優于單模態動作識別的結果。
研究人員也對深度學習算法進行了相應的調整,使其適應不同模態的動作數據。Kim 等[25]提出基于深度卷積和 RNN 的方法,該方法適用于人體手臂姿態學習。李玉鵬等[26]針對深度圖像信息從四維空間中映射到二維空間后動作識別誤差較大的問題,提出了基于聯合代價函數的 CNN 算法進行動作識別,取得了不錯效果。
2.2.2 人體動作識別在正骨康復訓練中的應用
在 HAR 的研究中,羅會蘭等[27]已詳細介紹了深度學習算法在視頻動作數據集中的應用。隨著 MEMS 傳感器和深度相機的發展,利用 IMU 和三維骨架數據實現 HAR 已成為當前的研究熱點并廣泛地應用于健康輔助和遠程康復。例如:Fernandez-Cervantes 等[28]基于 Kinect 建立了一個運動平臺,老年人在該平臺上能夠進行個性化運動鍛煉。運動鍛煉在康復治療中一直起著十分積極的作用,中醫正骨手法聯合運動康復療法也是目前中醫治療骨傷疾病的主流方法,能夠在緩解患者傷痛的同時顯著提高患者的康復速度[29-30]。而康復訓練計劃需要醫護人員根據骨傷患者的病情制定,也需要醫生進行實時的監督指導,這使得醫護人員一直超負荷工作。在康復訓練中利用 HAR 的相關技術,可以實現計算機監督記錄患者的康復訓練執行情況并反饋給醫生,醫生根據計算機的反饋結果可以制定進一步的精準治療方案。例如:Guerra 等[1]將 IMU 放置于老年健康受試者和慢性中風患者的上肢,記錄他們在上肢康復過程中的訓練動作,最后利用邏輯回歸算法實現康復動作的分類識別,識別的平均準確率達到了 80%。
中醫正骨操作手法極具技巧性,正骨手法的教學一直以來都靠“手口相傳”的方式。中醫正骨學習者在學習過程中也無法借助客觀的評價體系判斷其手法操作標準與否,所以正骨手法的傳承與推廣自進入新時代以來一直處于停滯狀態。現在,HAR 中的研究方法為中醫正骨的發展提供了新的思路,例如:馮敏山等[31]利用數字運動捕捉鏡頭捕捉坐位腰椎旋轉手法的具體操作步驟,利用統計學方法總結了坐位腰椎旋轉手法的特征。曹慧等[32]采用位移傳感器和六軸陀螺儀放置于左前臂橈骨中斷骨折模型中,利用姿態解算來獲得正骨手法作用下的斷骨移動數據。骨折模型的三維仿真圖像會隨傳感器數據同步變化,實現了中醫正骨手法作用機制的可視化。周晨爍等[33]利用 IMU 建立了中醫正骨三維仿真系統,該系統會記錄斷骨在移動過程中角度、加速度、角速度的變化數據,并與專家操作數據進行對比進而識別操作者是否正骨成功,實驗證明該仿真系統可以實現中醫正骨手法的模擬訓練。朱立國等[34]將 27 名正骨學習者按照培訓方式不同,隨機分為視頻教學、師承、儀器培訓共 3 組,進行正骨手法培訓,2 周后在旋提手法模擬操作考核系統上進行考核,結果顯示儀器培訓組的合格率要高于其他兩種傳承模式。HAR 應用在中醫正骨領域,改進了傳統的正骨教學方法,并為中醫正骨的發展提供了新的研究思路。同時在正骨仿真系統上進行模擬訓練可以幫助學習者總結手法操作的經驗,有效地縮短了中醫正骨手法的推廣周期。
3 總結
本文主要從動作捕捉、基于深度學習算法兩方面詳細描述了 HAR 實現人體動作分類的研究進展,并介紹了多模態人體動作表示識別在中醫正骨領域的應用。近幾年,在相關研究領域,研究人員已經做了大量研究實驗,并取得了顯著的成果。現在 HAR 及其在正骨康復訓練中應用的研究熱點和難點如下:① 精確的人體動作捕捉。準確完整地捕捉人體動作軌跡是實現 HAR 的關鍵,基于深度相機的捕捉方式能夠不受光線干擾,但無法克服人體活動空間受限問題。為解決以上問題,基于慣性傳感器的動作捕捉方式隨之興起,但是動作數據會由于傳感器的抖動產生誤差,且佩戴過多的傳感器會降低人體舒適度。② 多模態特征融合。隨著動作捕捉技術的多元發展,動作數據不再只有彩色視頻形式,深度視頻、傳感器信號也能表征人體動作。從多模態人體動作數據中提取有效特征,將不同模態的特征進行融合后再識別,能夠有效提高動作分類的精度和效率。多模態數據融合一般通過特征連接或決策融合的方法實現,而隨著深度學習算法的出現,深度融合逐漸成為特征融合研究的熱點。深度融合主要是通過融合基網絡的中間表達來實現特征融合,不少研究人員通過建立新的端到端的學習框架也可以實現特征融合。深度學習實現動作識別的優勢在于深度學習網絡可以實現特征自動提取,深度學習在 HAR 中應用將是新的研究方向。③ HAR 在中醫正骨領域的應用。在正骨醫生手上穿戴慣性傳感器裝置或用深度相機記錄推拿治療過程,能夠實現用多模態數據表示中醫正骨手法。通過頻率、速度、加速度、作用力等運動學參數實現正骨手法數據化,結合 HAR 中的運動學分析方法,有利于總結正骨操作手法的經驗。同時動作捕捉技術可幫助建立中醫正骨三維仿真系統,實現基于仿真系統的中醫正骨手法模擬訓練。仿真系統的建立能夠豐富正骨學習者的手法操作經驗,提升正骨學習者的學習效率,進而縮短中醫正骨手法的推廣周期。綜上所述,通過概述當前深度學習方法在 HAR 中的應用,期望本文可為后續中醫正骨康復治療的研究提供可借鑒的思路。
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
引言
人體動作識別(human action recognition,HAR)的目的是確定人體動作類別,以獲取人體行為信息。人體動作可以反映出最終的行為目的等豐富的信息,而人體肢體的活動完成度一直以來都是腦卒中患者和骨折患者健康恢復程度的評價標準。近年來,因人體動作信息中蘊含很多重要的生理、病理信息,因此對人體動作信息的有效提取已經引起相關領域研究人員的廣泛關注。通過計算機進行有效的 HAR,已在智慧醫療[1]、體育訓練[2]、視頻監控[3]等領域實現了廣泛的發展,例如:在醫療衛生領域,記錄肢體損傷患者康復動作并分析其完成程度,及時調整康復訓練方案,能夠有效減少人力資源的過度占用,實現智慧醫療;在體育訓練領域,記錄優秀運動員的運動信息,能夠幫助其它運動員制定精準有效的動作訓練方案;在視頻監控方面,計算機系統通過監督識別老人的日常生活動作達到健康監護的目的;另一方面,在公共場所中識別人體可疑動作反饋給安保人員,還能夠預防突發危機。
研究人員一直致力于完整捕捉人體動作并實現精確識別,但人體動作具有時間和空間上的雙重復雜性以及完整可變性,使得 HAR 技術仍然面臨許多困境。在時間維度上,不同人體動作的持續時間、動作速率、動作順序不盡相同,甚至不同的測試對象展示相同的動作也會由于個體差異性導致動作信息不一致;在空間維度上,人體活動范圍不固定,而要達到 HAR 的目的則要求動作捕捉裝置能夠時刻跟隨人體;或者即使運動過程中活動范圍固定,但由于人體動作多自由度變化,受測對象會因為背景遮擋、自身遮擋而無法捕捉到完整動作信息,從而影響對人體動作的識別。此外,人體活動場景一般較為復雜,常受諸多內外因素干擾,致使所采集運動數據信噪比很低,后續動作識別準確率難以提高等問題出現,因此實際使用過程中對 HAR 的高效性和準確性提出了更高要求。現在隨著慣性傳感器和深度相機的發展,利用傳感器信號、深度圖像等多種模態信號表征人體動作則能夠克服以上動作捕捉的困難。
中醫正骨是指利用特定的手法治療骨關節損傷,具有顯著的臨床骨科康復治療效果。隨著科學技術發展和醫學理念的進步,中醫正骨結合個性化康復訓練治療骨傷,能夠提升患者的康復進度。個性化康復訓練需要醫生實時監督指導并及時調整訓練任務,但受醫護人員數量及精力的限制使得其難以有效實施。HAR 的發展為正骨康復訓練提供了新的研究思路,動作捕捉技術可以獲取康復訓練動作的信息,通過計算機系統將動作的執行情況進行分類識別并反饋給醫生,能夠有效地減少醫護人員的工作量。多模態信息表示人體動作在 HAR 中的有效應用,使得中醫正骨研究人員開始采用多模態信號表征中醫推拿手法以研究其作用機制。結合運動學知識實現推拿手法數據化,有助于總結正骨手法的臨床操作經驗。本文基于上述問題,通過概述目前人體動作捕捉的主流方式,理清深度學習方法在 HAR 中的應用,為后續中醫正骨康復治療的研究提供可借鑒的思路。
1 動作捕捉方法及常用的人體動作數據集
1.1 動作捕捉方法及性能對比
HAR 的實現首先要獲得人體在三維空間中的運動數據,追蹤記錄人體運動的過程稱之為動作捕捉。動作捕捉技術從原理上可分為 4 種,分別是:機械式、聲學式、電磁式、光學式動作捕捉,各種動作捕捉方式性能對比如表1 所示[4]。現在,隨著科學技術的發展,應用最廣泛的動作捕捉主要是基于視頻、慣性傳感器、深度相機等 3 種方式。

1.1.1 基于視頻的動作捕捉
自 20 世紀 80 年代開始,基于計算機視覺的動作分類一直是 HAR 的研究熱點,研究者們通過視頻記錄運動過程的方式已建立了大量的數據集[5]。但由于人體活動范圍不固定,易受外界環境干擾,視頻記錄需要多視角共同作用等問題,使得基于視頻實現 HAR 一直難以達到人類視覺感知的準確度。
1.1.2 基于深度相機的動作捕捉
為解決普通攝像機易受光照影響的問題,研究人員提出利用深度相機捕捉人體動作軌跡。通過深度相機捕捉到的圖像為深度圖像,也可稱之為距離圖像,深度圖像中的每個像素記錄著目標物體到相機之間的距離信息。目前應用最廣泛的深度相機是 Kinect(Kinect V2,Microsoft Corporation,美國)。例如:Alt Murphy 等[6]通過使用三維運動捕捉技術來分析測試對象是否有上肢損傷,具體方式是使用 5 個攝像機收集手臂、軀干和臉部上的 9 個逆向反射標記的坐標達到數據采集目的。Kinect 捕捉肢體運動軌跡現在越來越多地用在運動訓練及康復運動性能評估領域。
1.1.3 基于慣性傳感器的動作捕捉
隨著微電子機械系統(micro electro mechanical systems,MEMS)的快速發展,利用慣性測量單元(inertial measurement unit,IMU)來表征人體運動信息能夠解決動作捕捉中活動范圍固定問題。一個 IMU 通常包括加速度計和陀螺儀,可以采集運動對象運動過程中的加速度、角速度數據,并且 IMU 價格低廉,可以大規模開發利用。現在 IMU 主要用于運動監測,例如:Callejas-Cuervo 等[7]建立了基于慣性傳感器的技術平臺,該平臺可以實現手臂彎曲運動的關節振幅監測,實驗結果證明該平臺也可以用于遠程康復治療。
1.2 公共人體動作數據集
為了客觀公正地評價 HAR 算法性能的優劣,國內外的研究機構對外公開了一些人體運動數據集。目前應用較廣泛的公共人體運動數據集有:基于多傳感器數據融合動作識別系統數據集(activity recognition system based on multisensor data fusion,AReM)[8],該數據庫利用智能手機中的嵌入式傳感器來采集數據,并且記錄了環境傳感器采集的數據;德州大學奧斯汀分校交互數據集(utexas introduction,UT-Interaction)[9],該數據集以視頻的形式記錄了兩個及多人的互動動作數據,這些交互動作是連續或同時發生;微軟研究院日常活動三維數據集(microsoft research daily activity 3D,MSR Daily Activity 3D)[10],該數據集采用 Kinect 來捕捉人體的運動軌跡;德州大學達拉斯分校多模態人類動作數據集(university of texas at dallas multimodal human action datase,UTD-MHAD)[11],該數據集同時使用 Kinect 和無線傳感器來捕捉人體運動信息,共記錄視頻、深度視頻、骨架關節點位置和慣性傳感器信號共 4 種類型的運動信息。
2 人體動作識別
2.1 多模態動作數據的手工特征提取
人體動作數據是持續的時序動作數據,數據量較大且易存在冗余數據。在動作分類之前進行特征提取,能夠最大限度地提高模型的分類精確度。傳統的視頻特征提取是基于密集軌跡算法提取定向光流直方圖(histograms of oriented optical flow,HOF)[12]、梯度方向直方圖(histogram of oriented gradient,HOG)[13]、軌跡特征等特征。人體骨骼框架模型是一種基于人體形態特征的人體表現方法,可以通過視頻中的關節點估計處理或通過深度相機直接獲得。Yao 等[14]提出運動骨架描述符,能夠融合人體部位動作的相對幾何速度、相對關節位置和關節角度等 3 個互補特征。慣性傳感器捕捉到的人體動作數據通常是加速度、角速度、磁力數據,研究人員一般利用滑動窗口在以上時序數據上取樣獲得均值、標準差、頻率偏態、自回歸系數、頻率光譜能量等統計學特征[15-16]。
2.2 基于深度學習的人體動作識別應用
2.2.1 深度學習實現多模態動作表示識別
深度學習是通過模擬人腦分析數據建立起來的模型,能夠分析海量數據中的非線性關系,具有更高的特征提取效率,并能根據提取的特征進行準確的分類和預測[17]。深度學習的具體分類如表2 所示。

深度學習可以從大數據中自動提取數據特征,實現了從原始數據到分類識別的端到端處理。與手工特征提取相比,深度學習能夠有效地解決動作類別的類內差異性和類間相似性問題[18]。張瑞等[19]通過卷積神經網絡(convolutional neural network,CNN)中不同的卷積層、池化層,降低了人體運動視頻的特征向量維度,實現了高效地動作識別。Pham 等[20]提出了一個基于殘差網絡的端到端學習框架,并利用新型深度架構來構建陡峭的殘差網絡,該網絡在動作分類過程中能夠預防模型的過擬合問題。Li 等[21]利用深度堆疊自動編碼器和多層稀疏自動編碼器自動提取傳感器數據特征進行分類,并對比通過手工提取特征進行分類的結果,結果顯示通過特征自動提取的方法進行分類的效果更好,準確率提高了 0.5%。胡雙杰等[22]設計了一種由兩層級聯的長短期記憶(long short-term memory,LSTM)RNN 組成的跌倒檢測算法,該算法可以實現跌倒動作特征的自動提取。
利用單模態信息難以實現動作準確分類,于是研究人員開始探索使用多模態信息進行特征融合以實現高效地動作識別。裴曉敏等[23]使用 CNN 聯合 LSTM 網絡的方法得到了骨架序列的時空融合特征,使用融合特征進行動作分類,達到了 83.2% 的分類準確率,結果證明該方法能夠識別多視角下的人體動作。Eitel 等[24]提出訓練兩個獨立的 CNN 分別處理彩色圖像和深度圖像,在 CNN 的全連接層完成特征數據融合,形成了新的目標識別結構。通過對比單模態動作識別的準確率,結果顯示多模態特征層融合的方式優于單模態動作識別的結果。
研究人員也對深度學習算法進行了相應的調整,使其適應不同模態的動作數據。Kim 等[25]提出基于深度卷積和 RNN 的方法,該方法適用于人體手臂姿態學習。李玉鵬等[26]針對深度圖像信息從四維空間中映射到二維空間后動作識別誤差較大的問題,提出了基于聯合代價函數的 CNN 算法進行動作識別,取得了不錯效果。
2.2.2 人體動作識別在正骨康復訓練中的應用
在 HAR 的研究中,羅會蘭等[27]已詳細介紹了深度學習算法在視頻動作數據集中的應用。隨著 MEMS 傳感器和深度相機的發展,利用 IMU 和三維骨架數據實現 HAR 已成為當前的研究熱點并廣泛地應用于健康輔助和遠程康復。例如:Fernandez-Cervantes 等[28]基于 Kinect 建立了一個運動平臺,老年人在該平臺上能夠進行個性化運動鍛煉。運動鍛煉在康復治療中一直起著十分積極的作用,中醫正骨手法聯合運動康復療法也是目前中醫治療骨傷疾病的主流方法,能夠在緩解患者傷痛的同時顯著提高患者的康復速度[29-30]。而康復訓練計劃需要醫護人員根據骨傷患者的病情制定,也需要醫生進行實時的監督指導,這使得醫護人員一直超負荷工作。在康復訓練中利用 HAR 的相關技術,可以實現計算機監督記錄患者的康復訓練執行情況并反饋給醫生,醫生根據計算機的反饋結果可以制定進一步的精準治療方案。例如:Guerra 等[1]將 IMU 放置于老年健康受試者和慢性中風患者的上肢,記錄他們在上肢康復過程中的訓練動作,最后利用邏輯回歸算法實現康復動作的分類識別,識別的平均準確率達到了 80%。
中醫正骨操作手法極具技巧性,正骨手法的教學一直以來都靠“手口相傳”的方式。中醫正骨學習者在學習過程中也無法借助客觀的評價體系判斷其手法操作標準與否,所以正骨手法的傳承與推廣自進入新時代以來一直處于停滯狀態。現在,HAR 中的研究方法為中醫正骨的發展提供了新的思路,例如:馮敏山等[31]利用數字運動捕捉鏡頭捕捉坐位腰椎旋轉手法的具體操作步驟,利用統計學方法總結了坐位腰椎旋轉手法的特征。曹慧等[32]采用位移傳感器和六軸陀螺儀放置于左前臂橈骨中斷骨折模型中,利用姿態解算來獲得正骨手法作用下的斷骨移動數據。骨折模型的三維仿真圖像會隨傳感器數據同步變化,實現了中醫正骨手法作用機制的可視化。周晨爍等[33]利用 IMU 建立了中醫正骨三維仿真系統,該系統會記錄斷骨在移動過程中角度、加速度、角速度的變化數據,并與專家操作數據進行對比進而識別操作者是否正骨成功,實驗證明該仿真系統可以實現中醫正骨手法的模擬訓練。朱立國等[34]將 27 名正骨學習者按照培訓方式不同,隨機分為視頻教學、師承、儀器培訓共 3 組,進行正骨手法培訓,2 周后在旋提手法模擬操作考核系統上進行考核,結果顯示儀器培訓組的合格率要高于其他兩種傳承模式。HAR 應用在中醫正骨領域,改進了傳統的正骨教學方法,并為中醫正骨的發展提供了新的研究思路。同時在正骨仿真系統上進行模擬訓練可以幫助學習者總結手法操作的經驗,有效地縮短了中醫正骨手法的推廣周期。
3 總結
本文主要從動作捕捉、基于深度學習算法兩方面詳細描述了 HAR 實現人體動作分類的研究進展,并介紹了多模態人體動作表示識別在中醫正骨領域的應用。近幾年,在相關研究領域,研究人員已經做了大量研究實驗,并取得了顯著的成果。現在 HAR 及其在正骨康復訓練中應用的研究熱點和難點如下:① 精確的人體動作捕捉。準確完整地捕捉人體動作軌跡是實現 HAR 的關鍵,基于深度相機的捕捉方式能夠不受光線干擾,但無法克服人體活動空間受限問題。為解決以上問題,基于慣性傳感器的動作捕捉方式隨之興起,但是動作數據會由于傳感器的抖動產生誤差,且佩戴過多的傳感器會降低人體舒適度。② 多模態特征融合。隨著動作捕捉技術的多元發展,動作數據不再只有彩色視頻形式,深度視頻、傳感器信號也能表征人體動作。從多模態人體動作數據中提取有效特征,將不同模態的特征進行融合后再識別,能夠有效提高動作分類的精度和效率。多模態數據融合一般通過特征連接或決策融合的方法實現,而隨著深度學習算法的出現,深度融合逐漸成為特征融合研究的熱點。深度融合主要是通過融合基網絡的中間表達來實現特征融合,不少研究人員通過建立新的端到端的學習框架也可以實現特征融合。深度學習實現動作識別的優勢在于深度學習網絡可以實現特征自動提取,深度學習在 HAR 中應用將是新的研究方向。③ HAR 在中醫正骨領域的應用。在正骨醫生手上穿戴慣性傳感器裝置或用深度相機記錄推拿治療過程,能夠實現用多模態數據表示中醫正骨手法。通過頻率、速度、加速度、作用力等運動學參數實現正骨手法數據化,結合 HAR 中的運動學分析方法,有利于總結正骨操作手法的經驗。同時動作捕捉技術可幫助建立中醫正骨三維仿真系統,實現基于仿真系統的中醫正骨手法模擬訓練。仿真系統的建立能夠豐富正骨學習者的手法操作經驗,提升正骨學習者的學習效率,進而縮短中醫正骨手法的推廣周期。綜上所述,通過概述當前深度學習方法在 HAR 中的應用,期望本文可為后續中醫正骨康復治療的研究提供可借鑒的思路。
利益沖突聲明:本文全體作者均聲明不存在利益沖突。