在小腦皮層神經元水平上研究小腦如何實現對肢體運動的控制并運用到智能機器人系統中,是目前人工智能和康復醫學等研究領域的一個熱點。目前通常使用的小腦模型僅以控制效果為目的,雖借鑒了小腦的功能模式,卻忽略了小腦的結構特性。實際上,小腦模型除了用于實現控制目的以外,還應該具有控制過程的可解釋性并能分析小腦發生病變時帶來的后果等,所以需要建立一種更能表達小腦特性的仿生小腦模型。本文在神經元水平上探討了小腦如何處理外部輸入信息進而產生控制指令的過程,通過對具有勻質結構的小腦進行功能化分塊,構建了一種包含小腦皮層主要細胞類型和細胞間連接方式的新型仿生小腦運動控制模型。通過仿真實驗和力反饋器控制實驗表明,本文構建的仿生小腦運動控制模型與目前廣泛應用的小腦關聯控制器模型相比,具有更好的控制效果,從而驗證了本文仿生小腦運動控制模型的有效性,為進一步實現真正意義上的類腦人工智能控制奠定了基礎。
引用本文: 張奇, 劉蓉, 李耀柱, 梁雅彬, 林相乾. 仿生小腦運動控制模型及其在手臂控制中的應用. 生物醫學工程學雜志, 2020, 37(6): 1065-1072, 1079. doi: 10.7507/1001-5515.201910052 復制
引言
小腦在人體協調運動控制和學習中起著重要的作用,小腦皮質內的多種神經元接收并整合大腦皮層傳出的控制肌肉運動的信號和運動過程中肌肉傳來的反饋信息,通過傳出纖維調整和糾正四肢的運動實現對肢體精準而穩定地控制[1-3]。鑒于小腦在運動系統中獨特的結構和連通性,模擬小腦神經系統結構及信息處理機制,建立類小腦模型以提升現有小腦模型與系統的智能水平成為生物醫學工程、人工智能和控制科學等領域的研究熱點。
多年來包括生物學、神經生理學以及控制工程學等領域的學者們模擬小腦神經系統的結構或功能特征,建立了多種小腦模型。自從 Albus[4]提出了小腦是感受器的觀點以來,小腦關聯控制器(cerebellar model articulation controller,CMAC)被廣泛地應用到機器人控制領域當中。為了提高 CMAC 的非線性逼近能力和不確定性處理能力,研究人員嘗試將模糊理論引入 CMAC 中[5-7]。Chao 等[5]在三種干擾條件下,將模糊 CMAC 方法用以控制仿真三關節機械臂,三個關節 30 s 的平均均方誤差分別為 141.8、141.1 和 141.1,表明模糊 CMAC 具有很好的抗干擾能力。CMAC 雖然借鑒了小腦的功能模式,卻忽略了小腦的結構特性和生理特性。結合小腦的神經生物學特性和運動指令計算過程,Solouki 等[8]基于半監督學習模式提出一個多元結構,期望構建一種可控制并應用小腦的運動模式以提高控制效率,但這一假說還需要更多的實驗來驗證。Antonietti 等[9]基于脈沖神經網絡建立小腦運動控制模型并應用于機器人 NAO(V3.3,Aldebaran Robotics Inc,法國)中,實現了對 NAO 機器人左臂肩肘的三個自由度的運動控制。然而,該方法受到網絡尺度的限制,輸出控制信號分辨率較低,三個關節在 5 s 內的歸一化平均均方根誤差在 0.3~0.5 的范圍內。
在小腦模型提出不到 30 年的時間里,其研究無論在理論上還是在實際應用中都取得了長足的進步。但實際上,人們對小腦神經系統結構的了解與研究還很欠缺,用以描述小腦模型的神經網絡無論在結構上還是在規模上都還只是真實小腦神經系統結構的極簡單模擬,因此小腦模型的研究還有待進一步的深入。本文通過對小腦皮層的解剖學和生理學的深入研究,利用神經計算學方法和神經元模擬器提出了能夠表達其內部神經元通路和作用機制的仿生小腦運動控制(bionic cerebellar motion control,BCMC)模型,以期實現對手臂運動模式的在線學習和精準控制。這不僅能夠實現對機器人運動更好的控制,而且可以模擬在小腦受損狀態下,挖掘處于病理狀態的小腦模型在神經網絡層面的改變與運動功能障礙之間的映射關系,從而有助于指導小腦病變患者的制定和調整康復訓練方法。更進一步,BCMC 模型有助于加深對小腦基本功能和突觸可塑性的理解,在醫學和人工智能之間架起橋梁,為人工智能、生物醫學工程、康復醫學和機器人學等多學科的相互深入交叉和發展提供新思路,為實現真正意義上的類腦人工智能控制奠定基礎。
1 仿生小腦運動控制模型
目前 CMAC 是機器人控制領域中應用最為廣泛的模型之一,其神經網絡實現是通過兩次基本映射來表示輸入和輸出之間的非線性關系,包括結果輸出及誤差生成和權值調整兩個階段。本文提出的 BCMC 模型以小腦的生理學和解剖學為基礎,綜合考慮小腦皮層中各神經元的連接方式和功能特性,結合控制學建模理論,設計出一種仿生小腦模型,包括小腦功能模塊、狀態編碼器模塊、反饋模塊和運動映射模塊四個功能模塊。BCMC 與 CMAC 兩種模型的結構對比如圖 1 所示。

1.1 小腦功能模塊
小腦功能模塊的作用是在動態執行過程中不斷調整突觸的記憶權值,從而實現控制功能。小腦皮層可以劃分為三層:表層,主要包含星形細胞(stellate cell,SC)和籃細胞(basket cell,BC);中間層,主要分布著浦肯野細胞(purkinje cell,PC)的胞體;內層,除了包含顆粒細胞(granule cell,GC)外,還包含高爾基細胞(golgi cell,GoC)。小腦皮層輸入信息主要來源于苔蘚纖維(mossy fibers,MF)和攀爬纖維(climbing fibers,CF)。MF 對本體感受和期望位置等信息進行稀疏編碼,通過突觸的形式將信息傳遞給 GC。CF 為小腦學習過程提供反饋信息,與 PC 形成興奮性突觸。PC 是小腦皮層的唯一輸出,經 PC 處理后的輸出信息映射至感覺、決策和運動中樞等其它大腦區域[10]。在此過程中,本體感受信息被平行纖維(parallel fibers,PF)通過 GC-PF 突觸捕獲并傳遞給 PC 的同時,也會將該信息傳遞給局部抑制神經元(GoC,SC,BC),這些局部神經元會與 PC 和 GC 形成抑制性突觸。當 GoC 處于興奮狀態時會抑制 GC 的活性,使之趨于穩定。同理,處于興奮狀態的 SC 和 BC 會對 PC 產生抑制效果。
小腦皮層具有勻質特性,即不同部位的神經元種類和連接模式大致相同,據此可以將小腦功能模塊設計成由 N 個小腦基本單元組成,每個基本單元具有相同的輸入輸出和功能,其仿生結構如圖 2 所示,箭頭表示興奮性刺激,圓點表示抑制性刺激。虛線框內表示小腦皮層主要神經元,虛線框外表示 BCMC 模型的兩種輸入:MF 和 PF。

設 u(t)=[u1(t),u2(t),,uN(t)]T 為小腦功能模塊的整體指令,其中 un(t)為小腦功能模塊中第 n(n = 1,2,
,N)個基本單元的輸出指令,其值由該基本單元中的各個 PC 的激活值確定,如式(1)所示:
![]() |
其中,常數 a 為命令調整系數,PCnl(t)為對應于第 n 個基本單元的第 l(l = 1,2,,L)個 PC 在 t 時刻的激活值,L 表示基本單元中的 PC 數目,每個基本單元中 PC 的數目都是相同的。根據小腦皮層的勻質特性,每個基本單元的計算方法都是相同的,所以以下將 PCnl(t)簡化為 PCl(t)。PC 的狀態為二值性,用“0”表示抑制狀態,“1”表示激活狀態,其狀態由式(2)確定:
![]() |
其中,θ 為 PC 的閾值電位, 為第 l 個 PC 的膜電位,
的計算如式(3)所示:
![]() |
其中,PFi 表示第 i(i = 1,2,,M)個 PF 的激活值,M 表示 PF 的個數,wil(t)表示第 i 個 PF 與第 l 個 PC 形成突觸的記憶權值,
和
分別表示 SC 和 BC 與第 l 個 PC 形成的突觸的權值,由于 SC 和 BC 對 PC 產生抑制作用,所以其值皆為負值 。SC 表示 SC 的狀態(SC 與所有 PC 相連,具有同一數值),BCl 表示與第 l 個 PC 相連的 BC 的狀態。
以上是在 t 時刻各個信號之間的關系,在動態執行過程中突觸的記憶權值 wil(t)也在不斷調整,在 t + 1 時刻的調整方式,如式(4)所示:
![]() |
其中,常數 K 為權值調整系數,?wil(t)為 t 時刻突觸的記憶權值 wil(t)的改變量。
1.2 狀態編碼器模塊
狀態編碼器模塊將手臂末端空間位置信息映射為小腦功能模塊基本單元中的 PF 的狀態。小腦功能模塊基本單元中的 PF 的狀態表現為 PFi 的取值,狀態編碼器原理如圖 3 所示,包括手臂末端三維狀態空間輸入 P(t)= [x(t),y(t),z(t)]T、相關區域 aj(j = 1,2,,q)、權值 ωj(j = 1,2,
,q)和輸出 PFi,其中 q 為邏輯分區數量。根據輸入所對應的邏輯分區,基于表格查詢的方式確定 aj 的取值,激活的 aj 為 1,未激活的 aj 為 0,在未學習狀態下權值 ωj 都默認為 1,其輸出即為激活的 PF,其值也具有二值性,用“0”表示抑制狀態,“1”表示激活狀態。

1.3 反饋模塊
反饋模塊通過下橄欖(inferior olive,IO)為小腦傳遞訓練信號以糾正手臂運動的誤差。訓練信號為小腦的學習過程提供反饋信息以調整相應的權值,其權值調整方式,如式(5)所示:
![]() |
其中,ε 和 τ 皆為正的常數。CFn 為第 n 個基本單元中的 CF 的激活值,其值也具有二值性,用“0”表示抑制狀態,“1”表示激活狀態。其狀態計算規則,如式(6)所示:
![]() |
其中,Pn 為第 n 個基本單元中的 CF 的激活概率。激活概率 Pn,如式(7)所示:
![]() |
其中,βn 為仿生手臂的實際位置與理想位置之間的偏差?P 與各命令映射向量 Dn = [dnx,dny,dnz]T 之間的夾角 。當 Pn 的直接計算值小于 0.5 時,令 Pn = 0。
1.4 運動映射模塊
運動映射模塊基于可調模式發生器實現小腦運動命令到手臂運動執行的映射。運動映射模塊具有儲存和執行運動命令等功能,因其產生的運動命令在幅度與周期等方面是可以改變的,因而被命名為可調模式發生器(adjust pattern generator,APG)。小腦基本單元與 APG 相對應,每個 APG 通過對關節的舒張肌和收縮肌的控制從而在運動空間以特定的方向移動手臂,即 APG 的作用方向。在動態執行過程中仿生手臂末端的位移調整向量 dφ =[dx,dy,dz]T 可根據命令映射矩陣 D = [D1,D2,,DN]和小腦輸出指令 u(t)計算,如式(8)所示:
![]() |
則 t + 1 時刻時,仿真手臂的空間位置 P(t + 1),如式(9)所示:
![]() |
若仿真手臂實際輸出與期望輸出之間的誤差達到了允許范圍,則手臂運動控制結束。否則,BCMC 重復學習過程并繼續調整 wil(t)的權值。
2 實驗方法
為了確認本文提出的 BCMC 模型的可行性,并且能夠直觀地了解控制過程,首先使用神經網絡模擬器 Emergent 8.5.6(University of Colorado,美國)建立 BCMC 模型控制仿真手臂,觀測控制過程中小腦皮層神經網絡的變化情況。Emergent 的作用主要在于神經仿真及模擬神經元活動,而 CMAC 模型簡化了神經元結構,只是在功能上實現控制,所以這種觀測是 CMAC 模型無法做到的。在確認了本文提出的 BCMC 模型的可行性之后,繼續設計了雙桿雙關節手臂跟蹤控制仿真實驗及力反饋器控制實驗,并與 CMAC 模型進行比較,驗證 BCMC 模型的控制效果。
2.1 Emergent 仿真手臂控制實驗
本文實驗中使用的 Emergent 仿真手臂是一種綜合神經網絡模擬器,可以創建和分析各種復雜的神經網絡,具有三維可視化的圖形界面,便于交互,用 Emergent 仿真手臂可以對本文提出的仿生小腦運動控制模型的控制過程進行觀測[11]。
實驗基于 Emergent 軟件建立了具有 4 自由度(肩關節 3 個自由度及肘關節 1 個自由度)和 12 塊肌肉群的仿真手臂,如圖 4 所示。這些肌肉分別附著在肩關節、上臂、前臂和手的不同位置,其中紅色球、青色球和綠色球依次為肩關節、肌肉插入點和期望位置,灰色柱條部分則表示手、前臂、上臂和軀干。

假設上臂、前臂和手掌是圓柱形的,設置其具有典型的人體尺寸和質量。肌肉的長度可由手臂的關節空間坐標表示,而手臂的關節坐標空間又可轉化為手臂的操作空間坐標。將手臂在操作空間的末端坐標映射到手臂關節空間肩關節的 3 個歐拉角 α、β、γ 和肘關節角 δ,其中肩部的歐拉角對應于固有的 Z 軸-X 軸-Z 軸旋轉,令 γ = 0 從而使手臂末端三維坐標和四個關節角之間能夠建立一種雙射關系,如式(10)所示:
![]() |
其中,L1 和 L2 分別為上臂和前臂的長度。在手臂角度為(α,β,γ,δ)狀態時可根據旋轉矩陣 A = [A1,A2,A3]求出每塊肌肉兩端插入點的位置,進而可以得到肌肉的長度和肌肉速度等信息。旋轉矩陣 A 如式(11)所示:
![]() |
再根據式(12)求出肌肉的長度誤差?L 和速度誤差?V:
![]() |
其中,LM(t)和 VM(t)分別為 t 時刻手臂的肌肉長度和收縮速度,LEM 表示肌肉的期望長度,GL 和 GV 代表增益因子,在實驗中設置為 GL = 2 和 GV = 1。當 LM(t)與 LEM 一致時即認為手臂到達目標位置,t + 1 時刻手臂的肌肉長度 LM(t + 1)和速度 VM(t + 1)如式(13)所示:
![]() |
2.2 雙桿雙關節手臂跟蹤控制仿真實驗
雙桿雙關節手臂跟蹤控制仿真實驗的目的是觀察兩種模型控制方法能否準確快速地跟蹤目標,在仿真實驗中忽略了連桿的重量和肌肉模型以簡化計算。為得到可靠結論,進行了 30 次對比實驗,并對兩種模型控制方法所用的平均跟蹤時間進行了計算。仿真實驗所用軟件為 Matlab 2018a(MathWorks,美國),運行平臺為戴爾筆記本(靈越燃 7000II,Dell Inc.,美國),系統配置為 CPU: i5-8250U,RAM: 4G。
2.3 力反饋器控制實驗
將控制方法應用在力反饋器上建立仿生手臂控制系統,通過設定不同的期望位置以檢驗控制方法對仿生手臂的運動控制效果。為得到可靠結論,實驗設置了 4 個期望位置 A(50,50,50)、B(? 50,50,50)、C(? 50,? 50,50)和 D(50,? 50,50),每個期望位置進行 30 次對比實驗,記錄手臂末端軌跡,計算不同期望位置下的手臂末端軌跡誤差。
本文實驗中使用的是力反饋器(Touch,3D Systems Inc.,美國),該設備具有 6 個自由度,每個自由度都具有傳感器,能夠實時提供操作空間的位姿信息和運動空間中速度、加速度等運動學信息[12-13]。在給定關節角度 θ = [θ1,θ2,θ3]T 和手臂長度的情況下,采用正向運動學計算工作空間坐標 P = [x,y,z]T,如式(14)所示,具體參數含義如圖 5 所示。對該仿生手臂的控制也可利用逆向運動學,具體的原理和實現方法參見文獻[14]。

![]() |
其中,L1 = L2 = 135 mm 表示手臂的上臂和下臂,O1 和 O2 分別是手臂的基坐標系和操作空間坐標系。 表示上臂在水平面上的投影沿逆時針旋轉的角度,
表示上臂與水平方向的夾角,
表示下臂與豎直方向的夾角。力反饋器的驅動方程,如式(15)所示:
![]() |
其中,F 表示力反饋器產生的三個方向的力向量,P 表示手臂的三個方向的位移向量,V 表示手臂的三個方向的速度向量。S 表示剛度系數,單位為 N/m,C 表示阻尼系數,單位為 N·s/m。
3 實驗結果
3.1 Emergent 仿真手臂控制實驗結果
小腦皮層神經網絡的各層神經元在手臂執行任務超過期望位置及到達期望位置時的激活情況如圖 6 所示,其中紅色表示高度激活,黃色表示一般激活,灰色表示未激活。紅(綠)色映射線表示興奮(抑制)性刺激。小腦皮層的輸入信息包括手的目標位置(target position,TP)和本體感受信息,其中本體感受信息又包括:12 塊肌肉的期望長度(target length,TL)、當前長度(current length,L)、速度(current velocity,V)、手臂末端當前位置(hand position,HP)和速度(hand velocity,HV)。可以看到,當手臂超過期望位置時,IO 神經元活躍度有了很大提升,這是由于肌肉誤差信號傳至 IO 從而刺激 IO 神經元由未激活狀態(灰色)轉化為激活狀態(黃色)。該誤差通過 IO 傳至 PC,經過誤差糾正以后,手臂重新回到了期望位置,此時 IO 層神經元由激活狀態(黃色)轉化為未激活狀態(灰色)。

圖 7 左圖表示的是手臂末端運動軌跡,實線和虛線分別表示手臂末端的實際位置和期望位置,可以看到在 t = 0.58 s 附近時,手臂末端軌跡(實線)到達了期望位置(點線)。由于慣性,當手臂末端軌跡開始超過期望位置時,小腦通過學習糾正手臂末端運動誤差,從而使手臂末端漸進重回到期望位置。圖 7 右圖表示的是肌肉誤差與手臂軌跡誤差的關系,當手臂末端超過期望位置時,IO 捕獲的手臂軌跡誤差(點線)信號會觸發肌肉誤差(實線)信號,該誤差信號經 IO 傳至小腦,最終影響 PF 和 PC 之間的突觸權值。小腦會學習該訓練信號,最終影響小腦產生的輸出控制指令,驅動手臂末端到達期望位置。圖 7 左圖和右圖在時間節點上的差異體現出了控制信號與輸出狀態的關系。

3.2 雙桿雙關節手臂跟蹤控制仿真實驗結果
雙桿雙關節手臂跟蹤控制仿真實驗結果如圖 8 所示。其中實線為手臂關節的設定值,虛線為本文 BCMC 方法的跟蹤角度,點線為 CMAC 方法的跟蹤角度,兩種方法都有很好的跟蹤效果。CMAC 平均耗時為 25.24 s,而 BCMC 方法平均耗時為 10.81 s。結果表明 BCMC 方法對手臂運動控制具有更快的響應速度和更高的控制精度。

3.3 力反饋器控制實驗結果
力反饋器控制實驗的手臂末端軌跡如圖 9 所示,其中實線為本文 BCMC 方法的手臂末端軌跡,點線為 CMAC 方法的手臂末端軌跡,棱形和星形代表每次實驗的最終位置,起始位置為原點。

對于 4 個期望位置 ABCD,本文 BCMC 方法的手臂末端軌跡平均誤差分別為 3.12 mm、2.01 mm、3.67 mm、4.83 mm,而 CMAC 方法的手臂末端軌跡平均誤差分別為 3.44 mm、4.99 mm、5.32 mm、5.26 mm,如圖 10 所示。結果表明了 BCMC 方法可以實現對仿生手臂更準確的控制。

4 結論
腦科學與智能技術的融合將推動類腦智能研究的突破和發展,對人腦認知神經機制的理解能為人工算法的研究帶來新啟發。本文內容的出發點,是課題組在前期研究過程中發現,目前的小腦模型通常僅以控制效果為目的,雖借鑒了小腦的功能模式,卻忽略了小腦的結構特性,這樣必然會帶來一定的局限性。因此設想了一種新型的仿生小腦運動控制模型,將小腦解剖結構反映在仿生小腦運動控制模型的各個功能模塊中,從而除了可以實現控制目的以外,還可以追蹤與解釋控制過程,并能分析小腦發生病變時帶來的后果。最終,本文通過神經計算仿真軟件、手臂仿真模型及仿生手臂機器人控制實驗,驗證了仿生小腦運動控制模型的有效性,實現了精準而穩定的控制。本文研究是一次有益的嘗試,為小腦模型的研究發展提供了新思路,即將結構仿生與功能仿生相結合才能實現更優的效果,同時也為下一步建立基于脈沖神經網絡的類小腦模型的研究奠定了基礎。
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
引言
小腦在人體協調運動控制和學習中起著重要的作用,小腦皮質內的多種神經元接收并整合大腦皮層傳出的控制肌肉運動的信號和運動過程中肌肉傳來的反饋信息,通過傳出纖維調整和糾正四肢的運動實現對肢體精準而穩定地控制[1-3]。鑒于小腦在運動系統中獨特的結構和連通性,模擬小腦神經系統結構及信息處理機制,建立類小腦模型以提升現有小腦模型與系統的智能水平成為生物醫學工程、人工智能和控制科學等領域的研究熱點。
多年來包括生物學、神經生理學以及控制工程學等領域的學者們模擬小腦神經系統的結構或功能特征,建立了多種小腦模型。自從 Albus[4]提出了小腦是感受器的觀點以來,小腦關聯控制器(cerebellar model articulation controller,CMAC)被廣泛地應用到機器人控制領域當中。為了提高 CMAC 的非線性逼近能力和不確定性處理能力,研究人員嘗試將模糊理論引入 CMAC 中[5-7]。Chao 等[5]在三種干擾條件下,將模糊 CMAC 方法用以控制仿真三關節機械臂,三個關節 30 s 的平均均方誤差分別為 141.8、141.1 和 141.1,表明模糊 CMAC 具有很好的抗干擾能力。CMAC 雖然借鑒了小腦的功能模式,卻忽略了小腦的結構特性和生理特性。結合小腦的神經生物學特性和運動指令計算過程,Solouki 等[8]基于半監督學習模式提出一個多元結構,期望構建一種可控制并應用小腦的運動模式以提高控制效率,但這一假說還需要更多的實驗來驗證。Antonietti 等[9]基于脈沖神經網絡建立小腦運動控制模型并應用于機器人 NAO(V3.3,Aldebaran Robotics Inc,法國)中,實現了對 NAO 機器人左臂肩肘的三個自由度的運動控制。然而,該方法受到網絡尺度的限制,輸出控制信號分辨率較低,三個關節在 5 s 內的歸一化平均均方根誤差在 0.3~0.5 的范圍內。
在小腦模型提出不到 30 年的時間里,其研究無論在理論上還是在實際應用中都取得了長足的進步。但實際上,人們對小腦神經系統結構的了解與研究還很欠缺,用以描述小腦模型的神經網絡無論在結構上還是在規模上都還只是真實小腦神經系統結構的極簡單模擬,因此小腦模型的研究還有待進一步的深入。本文通過對小腦皮層的解剖學和生理學的深入研究,利用神經計算學方法和神經元模擬器提出了能夠表達其內部神經元通路和作用機制的仿生小腦運動控制(bionic cerebellar motion control,BCMC)模型,以期實現對手臂運動模式的在線學習和精準控制。這不僅能夠實現對機器人運動更好的控制,而且可以模擬在小腦受損狀態下,挖掘處于病理狀態的小腦模型在神經網絡層面的改變與運動功能障礙之間的映射關系,從而有助于指導小腦病變患者的制定和調整康復訓練方法。更進一步,BCMC 模型有助于加深對小腦基本功能和突觸可塑性的理解,在醫學和人工智能之間架起橋梁,為人工智能、生物醫學工程、康復醫學和機器人學等多學科的相互深入交叉和發展提供新思路,為實現真正意義上的類腦人工智能控制奠定基礎。
1 仿生小腦運動控制模型
目前 CMAC 是機器人控制領域中應用最為廣泛的模型之一,其神經網絡實現是通過兩次基本映射來表示輸入和輸出之間的非線性關系,包括結果輸出及誤差生成和權值調整兩個階段。本文提出的 BCMC 模型以小腦的生理學和解剖學為基礎,綜合考慮小腦皮層中各神經元的連接方式和功能特性,結合控制學建模理論,設計出一種仿生小腦模型,包括小腦功能模塊、狀態編碼器模塊、反饋模塊和運動映射模塊四個功能模塊。BCMC 與 CMAC 兩種模型的結構對比如圖 1 所示。

1.1 小腦功能模塊
小腦功能模塊的作用是在動態執行過程中不斷調整突觸的記憶權值,從而實現控制功能。小腦皮層可以劃分為三層:表層,主要包含星形細胞(stellate cell,SC)和籃細胞(basket cell,BC);中間層,主要分布著浦肯野細胞(purkinje cell,PC)的胞體;內層,除了包含顆粒細胞(granule cell,GC)外,還包含高爾基細胞(golgi cell,GoC)。小腦皮層輸入信息主要來源于苔蘚纖維(mossy fibers,MF)和攀爬纖維(climbing fibers,CF)。MF 對本體感受和期望位置等信息進行稀疏編碼,通過突觸的形式將信息傳遞給 GC。CF 為小腦學習過程提供反饋信息,與 PC 形成興奮性突觸。PC 是小腦皮層的唯一輸出,經 PC 處理后的輸出信息映射至感覺、決策和運動中樞等其它大腦區域[10]。在此過程中,本體感受信息被平行纖維(parallel fibers,PF)通過 GC-PF 突觸捕獲并傳遞給 PC 的同時,也會將該信息傳遞給局部抑制神經元(GoC,SC,BC),這些局部神經元會與 PC 和 GC 形成抑制性突觸。當 GoC 處于興奮狀態時會抑制 GC 的活性,使之趨于穩定。同理,處于興奮狀態的 SC 和 BC 會對 PC 產生抑制效果。
小腦皮層具有勻質特性,即不同部位的神經元種類和連接模式大致相同,據此可以將小腦功能模塊設計成由 N 個小腦基本單元組成,每個基本單元具有相同的輸入輸出和功能,其仿生結構如圖 2 所示,箭頭表示興奮性刺激,圓點表示抑制性刺激。虛線框內表示小腦皮層主要神經元,虛線框外表示 BCMC 模型的兩種輸入:MF 和 PF。

設 u(t)=[u1(t),u2(t),,uN(t)]T 為小腦功能模塊的整體指令,其中 un(t)為小腦功能模塊中第 n(n = 1,2,
,N)個基本單元的輸出指令,其值由該基本單元中的各個 PC 的激活值確定,如式(1)所示:
![]() |
其中,常數 a 為命令調整系數,PCnl(t)為對應于第 n 個基本單元的第 l(l = 1,2,,L)個 PC 在 t 時刻的激活值,L 表示基本單元中的 PC 數目,每個基本單元中 PC 的數目都是相同的。根據小腦皮層的勻質特性,每個基本單元的計算方法都是相同的,所以以下將 PCnl(t)簡化為 PCl(t)。PC 的狀態為二值性,用“0”表示抑制狀態,“1”表示激活狀態,其狀態由式(2)確定:
![]() |
其中,θ 為 PC 的閾值電位, 為第 l 個 PC 的膜電位,
的計算如式(3)所示:
![]() |
其中,PFi 表示第 i(i = 1,2,,M)個 PF 的激活值,M 表示 PF 的個數,wil(t)表示第 i 個 PF 與第 l 個 PC 形成突觸的記憶權值,
和
分別表示 SC 和 BC 與第 l 個 PC 形成的突觸的權值,由于 SC 和 BC 對 PC 產生抑制作用,所以其值皆為負值 。SC 表示 SC 的狀態(SC 與所有 PC 相連,具有同一數值),BCl 表示與第 l 個 PC 相連的 BC 的狀態。
以上是在 t 時刻各個信號之間的關系,在動態執行過程中突觸的記憶權值 wil(t)也在不斷調整,在 t + 1 時刻的調整方式,如式(4)所示:
![]() |
其中,常數 K 為權值調整系數,?wil(t)為 t 時刻突觸的記憶權值 wil(t)的改變量。
1.2 狀態編碼器模塊
狀態編碼器模塊將手臂末端空間位置信息映射為小腦功能模塊基本單元中的 PF 的狀態。小腦功能模塊基本單元中的 PF 的狀態表現為 PFi 的取值,狀態編碼器原理如圖 3 所示,包括手臂末端三維狀態空間輸入 P(t)= [x(t),y(t),z(t)]T、相關區域 aj(j = 1,2,,q)、權值 ωj(j = 1,2,
,q)和輸出 PFi,其中 q 為邏輯分區數量。根據輸入所對應的邏輯分區,基于表格查詢的方式確定 aj 的取值,激活的 aj 為 1,未激活的 aj 為 0,在未學習狀態下權值 ωj 都默認為 1,其輸出即為激活的 PF,其值也具有二值性,用“0”表示抑制狀態,“1”表示激活狀態。

1.3 反饋模塊
反饋模塊通過下橄欖(inferior olive,IO)為小腦傳遞訓練信號以糾正手臂運動的誤差。訓練信號為小腦的學習過程提供反饋信息以調整相應的權值,其權值調整方式,如式(5)所示:
![]() |
其中,ε 和 τ 皆為正的常數。CFn 為第 n 個基本單元中的 CF 的激活值,其值也具有二值性,用“0”表示抑制狀態,“1”表示激活狀態。其狀態計算規則,如式(6)所示:
![]() |
其中,Pn 為第 n 個基本單元中的 CF 的激活概率。激活概率 Pn,如式(7)所示:
![]() |
其中,βn 為仿生手臂的實際位置與理想位置之間的偏差?P 與各命令映射向量 Dn = [dnx,dny,dnz]T 之間的夾角 。當 Pn 的直接計算值小于 0.5 時,令 Pn = 0。
1.4 運動映射模塊
運動映射模塊基于可調模式發生器實現小腦運動命令到手臂運動執行的映射。運動映射模塊具有儲存和執行運動命令等功能,因其產生的運動命令在幅度與周期等方面是可以改變的,因而被命名為可調模式發生器(adjust pattern generator,APG)。小腦基本單元與 APG 相對應,每個 APG 通過對關節的舒張肌和收縮肌的控制從而在運動空間以特定的方向移動手臂,即 APG 的作用方向。在動態執行過程中仿生手臂末端的位移調整向量 dφ =[dx,dy,dz]T 可根據命令映射矩陣 D = [D1,D2,,DN]和小腦輸出指令 u(t)計算,如式(8)所示:
![]() |
則 t + 1 時刻時,仿真手臂的空間位置 P(t + 1),如式(9)所示:
![]() |
若仿真手臂實際輸出與期望輸出之間的誤差達到了允許范圍,則手臂運動控制結束。否則,BCMC 重復學習過程并繼續調整 wil(t)的權值。
2 實驗方法
為了確認本文提出的 BCMC 模型的可行性,并且能夠直觀地了解控制過程,首先使用神經網絡模擬器 Emergent 8.5.6(University of Colorado,美國)建立 BCMC 模型控制仿真手臂,觀測控制過程中小腦皮層神經網絡的變化情況。Emergent 的作用主要在于神經仿真及模擬神經元活動,而 CMAC 模型簡化了神經元結構,只是在功能上實現控制,所以這種觀測是 CMAC 模型無法做到的。在確認了本文提出的 BCMC 模型的可行性之后,繼續設計了雙桿雙關節手臂跟蹤控制仿真實驗及力反饋器控制實驗,并與 CMAC 模型進行比較,驗證 BCMC 模型的控制效果。
2.1 Emergent 仿真手臂控制實驗
本文實驗中使用的 Emergent 仿真手臂是一種綜合神經網絡模擬器,可以創建和分析各種復雜的神經網絡,具有三維可視化的圖形界面,便于交互,用 Emergent 仿真手臂可以對本文提出的仿生小腦運動控制模型的控制過程進行觀測[11]。
實驗基于 Emergent 軟件建立了具有 4 自由度(肩關節 3 個自由度及肘關節 1 個自由度)和 12 塊肌肉群的仿真手臂,如圖 4 所示。這些肌肉分別附著在肩關節、上臂、前臂和手的不同位置,其中紅色球、青色球和綠色球依次為肩關節、肌肉插入點和期望位置,灰色柱條部分則表示手、前臂、上臂和軀干。

假設上臂、前臂和手掌是圓柱形的,設置其具有典型的人體尺寸和質量。肌肉的長度可由手臂的關節空間坐標表示,而手臂的關節坐標空間又可轉化為手臂的操作空間坐標。將手臂在操作空間的末端坐標映射到手臂關節空間肩關節的 3 個歐拉角 α、β、γ 和肘關節角 δ,其中肩部的歐拉角對應于固有的 Z 軸-X 軸-Z 軸旋轉,令 γ = 0 從而使手臂末端三維坐標和四個關節角之間能夠建立一種雙射關系,如式(10)所示:
![]() |
其中,L1 和 L2 分別為上臂和前臂的長度。在手臂角度為(α,β,γ,δ)狀態時可根據旋轉矩陣 A = [A1,A2,A3]求出每塊肌肉兩端插入點的位置,進而可以得到肌肉的長度和肌肉速度等信息。旋轉矩陣 A 如式(11)所示:
![]() |
再根據式(12)求出肌肉的長度誤差?L 和速度誤差?V:
![]() |
其中,LM(t)和 VM(t)分別為 t 時刻手臂的肌肉長度和收縮速度,LEM 表示肌肉的期望長度,GL 和 GV 代表增益因子,在實驗中設置為 GL = 2 和 GV = 1。當 LM(t)與 LEM 一致時即認為手臂到達目標位置,t + 1 時刻手臂的肌肉長度 LM(t + 1)和速度 VM(t + 1)如式(13)所示:
![]() |
2.2 雙桿雙關節手臂跟蹤控制仿真實驗
雙桿雙關節手臂跟蹤控制仿真實驗的目的是觀察兩種模型控制方法能否準確快速地跟蹤目標,在仿真實驗中忽略了連桿的重量和肌肉模型以簡化計算。為得到可靠結論,進行了 30 次對比實驗,并對兩種模型控制方法所用的平均跟蹤時間進行了計算。仿真實驗所用軟件為 Matlab 2018a(MathWorks,美國),運行平臺為戴爾筆記本(靈越燃 7000II,Dell Inc.,美國),系統配置為 CPU: i5-8250U,RAM: 4G。
2.3 力反饋器控制實驗
將控制方法應用在力反饋器上建立仿生手臂控制系統,通過設定不同的期望位置以檢驗控制方法對仿生手臂的運動控制效果。為得到可靠結論,實驗設置了 4 個期望位置 A(50,50,50)、B(? 50,50,50)、C(? 50,? 50,50)和 D(50,? 50,50),每個期望位置進行 30 次對比實驗,記錄手臂末端軌跡,計算不同期望位置下的手臂末端軌跡誤差。
本文實驗中使用的是力反饋器(Touch,3D Systems Inc.,美國),該設備具有 6 個自由度,每個自由度都具有傳感器,能夠實時提供操作空間的位姿信息和運動空間中速度、加速度等運動學信息[12-13]。在給定關節角度 θ = [θ1,θ2,θ3]T 和手臂長度的情況下,采用正向運動學計算工作空間坐標 P = [x,y,z]T,如式(14)所示,具體參數含義如圖 5 所示。對該仿生手臂的控制也可利用逆向運動學,具體的原理和實現方法參見文獻[14]。

![]() |
其中,L1 = L2 = 135 mm 表示手臂的上臂和下臂,O1 和 O2 分別是手臂的基坐標系和操作空間坐標系。 表示上臂在水平面上的投影沿逆時針旋轉的角度,
表示上臂與水平方向的夾角,
表示下臂與豎直方向的夾角。力反饋器的驅動方程,如式(15)所示:
![]() |
其中,F 表示力反饋器產生的三個方向的力向量,P 表示手臂的三個方向的位移向量,V 表示手臂的三個方向的速度向量。S 表示剛度系數,單位為 N/m,C 表示阻尼系數,單位為 N·s/m。
3 實驗結果
3.1 Emergent 仿真手臂控制實驗結果
小腦皮層神經網絡的各層神經元在手臂執行任務超過期望位置及到達期望位置時的激活情況如圖 6 所示,其中紅色表示高度激活,黃色表示一般激活,灰色表示未激活。紅(綠)色映射線表示興奮(抑制)性刺激。小腦皮層的輸入信息包括手的目標位置(target position,TP)和本體感受信息,其中本體感受信息又包括:12 塊肌肉的期望長度(target length,TL)、當前長度(current length,L)、速度(current velocity,V)、手臂末端當前位置(hand position,HP)和速度(hand velocity,HV)。可以看到,當手臂超過期望位置時,IO 神經元活躍度有了很大提升,這是由于肌肉誤差信號傳至 IO 從而刺激 IO 神經元由未激活狀態(灰色)轉化為激活狀態(黃色)。該誤差通過 IO 傳至 PC,經過誤差糾正以后,手臂重新回到了期望位置,此時 IO 層神經元由激活狀態(黃色)轉化為未激活狀態(灰色)。

圖 7 左圖表示的是手臂末端運動軌跡,實線和虛線分別表示手臂末端的實際位置和期望位置,可以看到在 t = 0.58 s 附近時,手臂末端軌跡(實線)到達了期望位置(點線)。由于慣性,當手臂末端軌跡開始超過期望位置時,小腦通過學習糾正手臂末端運動誤差,從而使手臂末端漸進重回到期望位置。圖 7 右圖表示的是肌肉誤差與手臂軌跡誤差的關系,當手臂末端超過期望位置時,IO 捕獲的手臂軌跡誤差(點線)信號會觸發肌肉誤差(實線)信號,該誤差信號經 IO 傳至小腦,最終影響 PF 和 PC 之間的突觸權值。小腦會學習該訓練信號,最終影響小腦產生的輸出控制指令,驅動手臂末端到達期望位置。圖 7 左圖和右圖在時間節點上的差異體現出了控制信號與輸出狀態的關系。

3.2 雙桿雙關節手臂跟蹤控制仿真實驗結果
雙桿雙關節手臂跟蹤控制仿真實驗結果如圖 8 所示。其中實線為手臂關節的設定值,虛線為本文 BCMC 方法的跟蹤角度,點線為 CMAC 方法的跟蹤角度,兩種方法都有很好的跟蹤效果。CMAC 平均耗時為 25.24 s,而 BCMC 方法平均耗時為 10.81 s。結果表明 BCMC 方法對手臂運動控制具有更快的響應速度和更高的控制精度。

3.3 力反饋器控制實驗結果
力反饋器控制實驗的手臂末端軌跡如圖 9 所示,其中實線為本文 BCMC 方法的手臂末端軌跡,點線為 CMAC 方法的手臂末端軌跡,棱形和星形代表每次實驗的最終位置,起始位置為原點。

對于 4 個期望位置 ABCD,本文 BCMC 方法的手臂末端軌跡平均誤差分別為 3.12 mm、2.01 mm、3.67 mm、4.83 mm,而 CMAC 方法的手臂末端軌跡平均誤差分別為 3.44 mm、4.99 mm、5.32 mm、5.26 mm,如圖 10 所示。結果表明了 BCMC 方法可以實現對仿生手臂更準確的控制。

4 結論
腦科學與智能技術的融合將推動類腦智能研究的突破和發展,對人腦認知神經機制的理解能為人工算法的研究帶來新啟發。本文內容的出發點,是課題組在前期研究過程中發現,目前的小腦模型通常僅以控制效果為目的,雖借鑒了小腦的功能模式,卻忽略了小腦的結構特性,這樣必然會帶來一定的局限性。因此設想了一種新型的仿生小腦運動控制模型,將小腦解剖結構反映在仿生小腦運動控制模型的各個功能模塊中,從而除了可以實現控制目的以外,還可以追蹤與解釋控制過程,并能分析小腦發生病變時帶來的后果。最終,本文通過神經計算仿真軟件、手臂仿真模型及仿生手臂機器人控制實驗,驗證了仿生小腦運動控制模型的有效性,實現了精準而穩定的控制。本文研究是一次有益的嘗試,為小腦模型的研究發展提供了新思路,即將結構仿生與功能仿生相結合才能實現更優的效果,同時也為下一步建立基于脈沖神經網絡的類小腦模型的研究奠定了基礎。
利益沖突聲明:本文全體作者均聲明不存在利益沖突。