自閉癥譜系障礙(ASD)是一種主要表現為社交溝通與交往缺陷以及重復刻板行為的神經發育障礙。隨著計算機視覺技術的快速發展,基于視覺行為分析的ASD輔助診斷受到了越來越多的關注。本文對當前基于視覺行為分析的ASD輔助診斷研究進行綜述,首先簡述了ASD的核心癥狀和臨床診斷標準;然后,根據臨床診斷標準,分類介紹了現有研究中設置的互動場景;接著論述了現有ASD數據集;最后分析了在不同互動場景中基于視覺行為分析的ASD輔助診斷方法的優缺點,總結了該研究領域面臨的挑戰,展望了未來發展方向,以期促進視頻行為分析在ASD輔助診斷研究的臨床應用。
引用本文: 李翔, 馬昕, 李貽斌. 基于視覺行為分析的自閉癥譜系障礙輔助診斷研究綜述. 生物醫學工程學雜志, 2023, 40(4): 812-819. doi: 10.7507/1001-5515.202204038 復制
0 引言
自閉癥譜系障礙(autism spectrum disorder,ASD)是常見的神經發育障礙性疾病,主要表現為社會溝通與交往缺陷和重復刻板行為。近年,ASD的患病率呈現顯著上升趨勢,美國疾病控制與預防中心的數據顯示,2021年美國ASD的患病率為1/44,與2002年的1/150相比,增加了241%[1]。2019年《中國自閉癥教育康復行業發展狀況報告III》推算,我國ASD患者超過1 000萬,并以每年約20萬人的速度增加[2],ASD已經成為全球性重大公共衛生問題。大量研究成果表明,針對ASD的早期干預治療能夠獲得較好的預后效果,有效提高患者的社會適應能力和認知能力[3],因而如何對ASD盡早地進行科學準確的識別和診斷是亟待解決的關鍵問題。
目前,ASD發病成因尚不明確,識別和診斷局限于臨床醫生通過量表[4]、會談問卷[4]、統計手冊[5]對兒童的成長歷史、社交技能和行為表現進行綜合評估,不僅耗時,而且依賴臨床醫生的專業技能和經驗知識。不同醫師的專業水平和臨床診斷經驗大不相同,很大程度上還會受到主觀因素的干擾,影響判斷[6]。
隨著計算機視覺技術和人工智能技術的快速發展,基于視覺行為分析的ASD輔助診斷研究受到了國內外學者越來越多的關注。計算機視覺技術在行為數據采集方面具有低成本和非接觸的優勢,人工智能技術具有強大的視頻理解能力,為科學準確地早期識別和診斷ASD提供了可能。此外,視覺行為數據采集具有非干預性和強隱蔽性的優點,為實現未成年人群的ASD早期篩查提供了有力的技術支撐[7]。
基于視覺行為分析的ASD輔助診斷研究,是以ASD的核心癥狀分析為基礎,設置互動場景,采集患者的行為視頻數據,提取特征,進而識別診斷。本文對近幾年國內外基于視覺行為分析的ASD輔助診斷研究進行綜述,首先簡要介紹ASD在社交互動、異常行為缺陷上的核心癥狀及臨床診斷標準;接著,按照核心癥狀不同,將現有研究設置的互動場景分為四大類,逐一詳細介紹;然后,整理并分析了現有數據集的內容和優缺點;最后,分析比較了不同互動場景下基于視覺行為分析的ASD識別診斷方法的優缺點,總結了該研究領域面臨的挑戰,展望了未來發展方向,以期促進視頻行為分析在ASD輔助診斷研究的臨床應用。
1 ASD行為學特征評估
兒童的行為學特征能夠反映其發育狀態,觀察兒童的溝通或行為能力,可以了解其生長發育狀況,還可以幫助判斷兒童是否患有認知或社交缺陷[8]。本節主要對ASD患者的核心癥狀和臨床診斷標準進行簡單論述。
1.1 核心癥狀
ASD患兒的核心癥狀表現為社交及溝通障礙和異常行為。
1.1.1 社交及溝通障礙
社交障礙是指嬰幼兒時期的ASD患者回避別人的目光接觸,對人的聲音缺乏興趣或者沒有反應[9]。ASD患兒一般不與同齡兒童玩耍,對父母缺乏依賴,這些社交障礙表現與正常發育(typical development,TD)兒童有明顯區別。
溝通障礙包括語言和非語言溝通障礙。大多數患者的語言功能發育落后,有些患兒在語言功能前期發育正常后出現語言倒退的現象,表現為自言自語、表達內容單調或者會出現“鸚鵡語言”的表現;ASD患者的非語言溝通障礙表現為缺少或不能使用眼神、手勢、面部表情、身體朝向或姿態進行正常的交流[5]。
1.1.2 異常行為
異常行為指的是刻板動作、重復性行為等癥狀。精神病學的研究表明,行為發育障礙是社交及溝通障礙的初期表現,可以作為診斷ASD的早期生物標記[10]。ASD患者的異常行為主要表現在粗大動作、精細動作以及運動動作的協調與運用障礙。
粗大動作是指個體大肌肉或大肌肉群的運動,ASD患者在粗大動作方面存在基本運動技能和運動控制的缺陷,如正常站立時身體搖晃不受控制或行走時步態失調等[11]。
精細動作是手及手指等部位的小肌肉或小肌肉群進行的動作,ASD患者在用手抓握和手指的靈活性方面存在缺陷[12]。
ASD患者運動動作協調和運用障礙是指在學習、游戲或其他社會活動中無法模仿或者按照指令要求完成一系列具有一定順序性和協調性的動作。例如,體育運動中難以控制自己的身體協調或者在執行一系列動作過程中反應遲緩[13]。
1.2 評估與診斷標準
國際公認的ASD診斷評估標準有美國精神障礙診斷與統計手冊第五版(diagnostic and statistical manual of mental disorders-5th edition,DSM-5)和基于此評估標準設計的自閉癥診斷觀察量表第二版(autism diagnostic observation schedule-2nd edition,ADOS-2)以及自閉癥診斷會談問卷(autism diagnostic interview-revised,ADI-R),這些評估量表和問卷皆是醫生慣用的臨床診斷工具。
1.2.1 診斷標準
患有ASD的兒童其發病時間大多都在發育早期,核心癥狀為社會溝通缺陷、限制性的興趣和重復性行為,依據DSM-5,ASD患者的確診必須要符合以下四個條件:
(1)一定場景下,在社交情感交互、語言交流行為(表情或手勢交流)、發展或理解關系三個方面存在持續性社交互動缺陷。
(2)受限制的行為或興趣模式,至少有以下兩個癥狀:刻板或重復動作、做事單調、對某事或某物具有異常強烈的興趣、對周圍環境的刺激反應異常。
(3)在嬰幼兒時期出現(1)和(2)癥狀。
(4)病癥導致日常行為受限,或嚴重影響正常生活。
1.2.2 診斷工具
基于DSM-5制定的診斷標準,醫生利用觀察量表或會談問卷,進行ASD臨床診斷。ADOS-2和ADI-R是國際上應用最廣泛的ASD臨床診斷工具,具有較高可靠性,通常被視為診斷ASD的金標準。前者是由專業醫師分析患兒行為的系統性評估工具[4];后者是基于家長回憶患兒的行為表現進行篩查的評估工具,側重于觀察患兒平時的語言溝通、社交互動能力和刻板活動。在臨床診斷過程中,兩種工具的使用比較耗時,且診斷醫師需要長時間培訓。在進行ADI-R評估時,由于大腦回憶機制的生理性限制,家長在描述內容時不可避免地產生記憶偏差或受主觀性影響[4]。
2 基于視覺行為分析的ASD輔助診斷場景
用于ASD輔助診斷視頻數據的獲取途徑有兩類,一類是研究者從視頻網站下載公開發布的ASD患者居家日常行為視頻,獲取ASD患者日常活動中的重復性和限制性行為影像資料,如頭部撞擊、身體前后搖晃、腳趾行走、繞圈行走等異常行為[14-15];另一類是設定互動場景采集受試者的行為視頻數據,不同的場景可以使患者受到不同的誘發刺激,刺激患者做出異常行為,從而獲得豐富的動作信息,如指尖的抓握動作、面部微表情等。專門設定的交互場景分為非語言溝通場景、社交性互動場景。
2.1 非語言溝通場景
為了獲取ASD患者利用手勢動作、眼神、面部表情、身體朝向及身體姿態進行非語言溝通的障礙表現,文獻[16]設置了手部抓握瓶子試驗,要求患兒用手對瓶子進行抓取、傳遞、放置、倒置,基于普通攝像頭拍攝的紅綠藍(red,green,blue,RGB)色彩模式視頻數據分析手部姿態動作,進行ASD識別;文獻[17]設定了傳遞玩具的場景,評估者和受試者坐在桌子的兩邊進行玩具傳遞,利用架設在桌子上方的RGB攝像機和動力學體感(kinetics connection, Kinect)深度攝像機(Microsoft corp.,美國)采集二者的手部行為數據,再進一步通過手部行為分析,判斷受試者是否能夠理解及完成傳遞動作;文獻[18]設定了手指指物場景,利用吹泡泡游戲對患兒的吸引力,收集患兒手指和眼神注視信息,分析其是否具有用手勢和眼神表達意愿的能力。
2.2 社交性互動場景
呼名反應能夠有效地反映受試者參與社交性交互活動的能力,也是ASD輔助診斷的常用場景,在患兒和家長玩玩具過程中,旁邊的測試者呼喚患兒的名字,利用RGB攝像頭和Kinect深度攝像機記錄數據,通過表情識別、頭部姿態估計、眼睛注視估計等,計算注視角度及注視時長,評估患兒呼名反應的遲緩程度[19]。
患兒在游戲中的表現也能夠反映其社交性交互能力,設置在患兒面前移動會發聲的玩具[20]、遙控卡通形狀機器人做動作和發聲[21]的游戲場景,吸引患兒注意力,采集RGB視頻和深度視頻,基于對患兒面部表情、注視方向、頭部姿態的分析進行社交性交互能力評估。
3 基于視覺行為分析的ASD輔助診斷數據集
目前用于ASD輔助診斷的視覺行為分析數據集按照其關注的核心癥狀分類,可以分為以下三類:日常活動中的異常動作數據集、手部精細動作數據集和社交性互動行為數據集。本節介紹公開發布且采用較多的數據集和近年采集的數據集,如表1所示。

3.1 日常活動中的異常動作數據集
自我刺激行為數據集(self-stimulatory behaviors dataset,SSBD)是研究者從視頻網站上下載視頻文件并進行標注制作的公開數據集[15]。該數據集包含三種自我刺激行為,即拍手、頭部撞擊和旋轉(頭部旋轉、身體旋轉、走圈),共計75個實例視頻,平均時長為90 s,像素為320×240。由于這些視頻均拍攝于非受限的家庭場景,存在異常行為持續時間短、強度和連續性不一致,以及視頻中人物空間位置多變等問題,給ASD輔助診斷任務帶來了巨大的挑戰。
油管ASD視頻數據集(YouTube ASD database)是英國基爾大學(University of Keele)提供的公開視頻數據集[22],由來自視頻網站的33個TD實例視頻和35個ASD實例視頻組成。視頻的總長度是90 min,處理后的每一個短視頻序列的時長大約是3~12 s。這些視頻呈現的是3~12歲兒童在日常生活中的表現,其中ASD兒童的異常行為有刻板拍手、跳躍或前后擺動、重復性地擺弄玩具等,可用于ASD的輔助診斷。
自然觀察診斷評估數據集(naturalistic observation diagnostic assessment,NODA)是監護人利用手機等設備在居家環境中拍攝兒童日常活動采集而成的數據集[23],共有8 349個片段(時長約為10 s),并由專業醫師對每一個視頻片段進行分類標注,以判斷參與兒童是否具有正常或異常行為。視頻中的活動類別包括:“獨自玩耍”、“與別人進行游戲”、“吃飯”和“父母的關心”等。
上海交通大學發布了總時長為40 h的ASD數據集(ASD40h),包括30個實例視頻,共五種ASD異常行為:拍手、撞頭、轉圈、用腳尖走路、在眼前活動手指[24]。實例視頻片段平均時長為41 s,其中ASD異常動作平均時長3.6 s,重復性行為平均時長為28.4 s。該數據集不僅適用于短時異常動作檢測,還可用于進行長時間的重復性行為識別。
三維(three-dimensional,3D)骨骼步態數據集(3D skeleton-based gait dataset)使用Kinect采集了50名ASD兒童和50名TD兒童沿直線行走的步態數據[14],包括25個關節點的位置信息和關節點之間的16個角度信息,可用于分析ASD患兒的異常步態。
擴展刻板行為數據集(expanded stereotype behavior dataset,ESBD)包含從視頻網站上收集制作的108名ASD兒童(男76名,女32名)的四類刻板行為(即旋轉、甩胳膊、手部運動和撞頭),共計141個實例視頻[25]。上述SSBD和ESBD只收集了ASD患兒的影像資料,缺乏TD兒童的影像資料,因此僅限于對ASD患兒的行為進行分類,無法實現ASD輔助診斷。
3.2 手部精細動作數據集
ASD檢測數據集(ASD detection dataset)是意大利模式分析和計算機視覺機構(Pattern Analysis & Computer Vision,PAVIS)利用分辨率為1 280×720、采樣率為100 幀/s的運動捕捉相機(Vicon VUE,Vicon Motion Systems Ltd.,英國)捕獲的視頻數據集[16]。該數據集包含了7~12歲的20名ASD患兒和20名TD兒童的四種抓握瓶子的手部動作(放置、倒入水、傳遞瓶子和倒出水)影像資料。
上海交通大學的研究團隊利用普通RGB相機采集了一個表達需求的指向(expressing needs with pointing,ENP)數據集[18],試驗對象包含16~32個月的8名ASD患兒和11名TD兒童,并由臨床醫生對采集后的19個實例視頻進行評估和標注。該數據集可用于根據兒童的食指或手掌的指向來分析其非語言溝通能力,從而達到早期篩查ASD的目的。
3.3 社交性互動行為數據集
德恩尼格瑪(De-Enigma)動作情緒數據集是由瑞典隆德大學(Lund University)發布的一個多模態數據集[26],包含了ASD患兒與醫師之間互動的影像數據。該數據集使用了第二代Kinect(Kinect V2)對治療師和ASD患兒在簡單場景玩游戲時所表現出的上體運動狀態進行了記錄,包括7位ASD患兒參與并完成的37類動作(舉手、伸展手臂、拍手、從治療師手中抽取卡片等),共3 757個實例視頻,每個視頻的平均時長為2.1 s。
呼名反應數據集(response to name,RTN)使用了一臺Kinect和兩臺分辨率為1 280×720的RGB相機,同步采集了27個實例視頻片段[19]。受試者均為2歲,包括5名ASD患兒和2名TD兒童。研究人員使用兩臺RGB相機來采集面部影像,該影像用于生成面部坐標、表情和眼部注視方向數據;Kinect主要被用于提取兒童的3D骨架和音頻信息。
計算機視覺分析(computer vision analysis,CVA)數據集使用了平板電腦的前置攝像頭記錄受試者的頭部運動,采集了22名ASD患兒和82名TD或發育遲緩兒童的影像資料,共104個實例視頻[27]。研究人員對兒童的面部進行檢測并生成49個標志點,然后再利用跟蹤技術來估算兒童頭部相對于攝像頭的位置,以評估受試者的注意力和方向感。
自閉癥(Autism)數據集使用3臺RGB相機同步錄制了1 481段視頻,每段視頻時長為2~5 s[28]。采集對象是37名ASD患兒,研究人員要求其模仿8種代表性的行為,包括“移動桌子”和“手臂向上”2種粗大動作、“鎖手”和“輕拍”2種精細動作,以及“滾動玻璃”、“觸摸鼻子”、“觸摸頭部”和“觸摸耳朵”4種復雜動作。
自閉癥診斷觀察量表(autism diagnostic observation schedule,ADOS)數據集和行為運動(Activis)數據集收集了受試者在進行ADOS評估期間的視頻資料[29-30]。前者共有年齡為1.2~6.9歲的169名ASD患兒和68名TD兒童參與,包括27個異常行為癥狀(指物動作、刻板的使用單字或片語、使用他人的身體進行溝通等),收集了237段實例視頻;后者共有60名3~6歲的ASD患兒參與,包括5類動作:拍手、鼓掌、品嘗、跳躍和其他,收集了388了段實例視頻。
3.4 數據集內容分析
數據的采集與分析是實現基于視覺行為分析的ASD輔助診斷的前提條件。然而,目前公開的數據難以對患兒的行為缺陷進行全面的定量或定性研究。因此,為了提高計算機視覺輔助診斷的篩查效率和準確率,需要不斷地改進和健全數據集。
目前在數據采集過程中仍存在許多待解決的問題。首先,ASD患兒的認知滯后和注意力缺乏等缺陷會導致醫師的示范動作無效或者需要反復示范,從而無法有效引導患兒表現出行為障礙。其次,ASD相關的數據集和其他普通數據集在采集與處理過程中存在許多區別:①ASD患者的部分刺激行為需要結合微表情或精細動作來分析;②由于ASD癥狀的嚴重程度不一致,每個ASD患者對同一行為的反應程度有很大的差異,如行為動作的頻率和強度存在差異;③錄制場景通常較為復雜,干擾因素多;④ASD癥狀的刺激性行為可能持續發生,也可能多種行為混合發生。最后,為了保證標注結果的準確性,醫師需要使用臨床診斷工具再次對處理后的數據進行專業評估和標注。然而,這一操作工作量巨大,且不同醫師專家對病癥的嚴重程度可能會給出不同的意見,因此,這也是ASD相關數據集較少的主要原因。
4 基于視覺行為分析的ASD輔助診斷方法
利用視頻數據進行ASD輔助診斷的方法主要聚焦于ASD核心癥狀,通過提取視頻中手部、頭部或身體的時空特征,以構建ASD患兒行為模式模型。根據關注的身體部位不同,ASD輔助診斷方法分為:基于手部姿態分析的ASD診斷、基于頭部姿態分析的ASD診斷和基于行為識別的ASD診斷。
4.1 基于手部姿態的ASD診斷
空間特征的提取:在ENP的試驗場景中[18],上海交通大學基于RGB視頻幀,利用目標檢測網絡“你只看一次第三版”(you only look once-version 3,YOLO V3)算法檢測兒童的手和泡泡水瓶。接著,研究人員設計了殘差網絡-18(residual network – 18,ResNet-18)對手部區域圖像進行手勢識別(食指指物、手掌指物、其他),以判斷是否存在指物手勢。同時,借助基于開放姿態(OpenPose)的算法,檢測兒童的手腕和手肘,確定前臂的朝向;基于亞歷克斯網絡(AlexNet),檢測手部關鍵點,以確定食指指向或者手掌指向。如有連續多幀的手勢符合食指指向,則判定為手指指向泡泡水瓶;如有連續多幀的手勢符合手掌指物,再結合手部運動的方向和距離,判斷手掌是否指向泡泡水瓶。該算法在包含有19位兒童的數據集上的識別精度達到了17/19。然而,該項研究未處理行為視頻中的時間信息,因此無法有效地結合上下文來分析行為特征。
時空特征的提取:文獻[16]利用遞歸深度神經網絡對視頻中的抓握手勢進行分析。首先,使用卷積神經網絡(convolutional neural networks,CNN)提取每一幀中的深度特征。然后,將這些特征依次輸入到長短時記憶網絡(long short-term memory,LSTM)中,該網絡能夠有效編碼視頻序列中時間信息。試驗采用留一法進行驗證,結果顯示,ASD的識別正確率為72%。文獻[31]利用了一種空間注意力雙線性池化方法,進一步提高空間特征的提取能力,在基于抓握手勢視頻的ASD識別中,其正確率達到了87%。為了在實際臨床中提高可用性并減少對硬件資源的需求,美國斯坦福大學(Stanford University)的研究人員利用輕量級網絡模型“移動網絡第二版”(mobilenet-version 2,MobileNet V2)和“媒體管道”(MediaPipe)來提取ASD患兒的刻板拍手動作的時空特征[32]。該研究基于SSBD數據集中的100個拍手視頻和100個其他動作視頻進行試驗,試驗結果表明,輕量級網絡模型具有較少的參數量和計算量,同時能夠達到89.6%的檢測精度。
4.2 基于頭部姿態的ASD診斷
基于頭部姿態的ASD診斷方法研究,包括利用計算頭部轉向角進行呼名反應的評估方法,以及基于深度學習技術以提取時空特征,實現對撞頭行為檢測的方法。
頭部轉向角:文獻[19]基于呼名反應場景中的視頻數據,利用行人檢測、骨架提取、語音識別、頭部姿態骨架識別、人臉表情識別和注視估計等算法,對兒童在呼名反應中的注視頻率、角度、持續時間等數據進行分析,以實現對ASD的輔助診斷。美國杜克大學(Duke University)的研究者們提取面部49個標志點[27],通過計算標志點與標準3D人臉模型的旋轉參數,估計兒童頭部轉向角度。如當呼名后2 s內頭部轉向角大于30°時,判斷為有反應。進一步基于重復四次的試驗結果,對兒童的呼名反應能力進行評分。然而,上述輔助診斷方法的泛化性較差,且主要側重于提取單一特征,如凝視、頭部轉向或視覺跟蹤等。考慮到ASD癥狀通常會伴隨著大量其他姿勢或動作的整體行為表現,單一特征的提取和分析往往無法充分捕捉ASD的復雜性行為。因此,需要開展更綜合的研究,結合多種特征和行為的分析,以實現對ASD的更準確和全面的輔助診斷。
時空特征:美國斯坦福大學采用時間分布CNN [33]和LSTM結合的方法,將其應用于SSBD數據集中檢測撞頭行為的任務,實現了高達90.77%的正確率。
4.3 基于行為分析的ASD診斷
局部特征:文獻[25]基于ESBD數據集,提取視頻中的梯度方向直方圖(histogram of oriented gradient,HOG)、定向光流直方圖(histograms of oriented optical flow,HOF)、HOG/HOF、尺度不變特征變換(scale-invariant feature transform,SIFT)和加速魯棒特征(speeded-up robust features,SURF)等局部描述子,并比較了多層感知機、樸素貝葉斯和支持向量機等傳統分類器對于手臂擺動、撞頭和身體旋轉等刻板行為的識別性能。在這些傳統的識別方法中,特征提取和建模過程較為復雜,識別效果很大程度上依賴于特征提取策略的選擇。
時空特征:文獻[25]利用3D CNN和卷積LSTM(convolutional LSTM,ConvLSTM),提取ESBD數據集中RGB視頻的時空特征,實現了對手臂擺動、撞頭和身體旋轉等刻板行為的識別。文獻[24]利用3D CNN提取時空特征,并結合時間金字塔網絡實現重復行為的判別。時間金字塔可以獲得更多時間序列上的信息,進行多尺度變化增強,但這樣會帶來極大的計算量。
關節點:一方面,研究人員基于Kinect V2獲取的人體關節點3D坐標位置及關節點軌跡[14]進行ASD診斷;另一方面,研究者們應用二維姿態檢測器阿爾法姿態(AlphaPose)[25]、OpenPose[22, 29]及3D重建技術[26]從RGB視頻幀中提取人體關節點的坐標位置,再利用CNN-LSTM深度網絡進行異常行為識別,實現ASD診斷。文獻[23]利用掩膜區域CNN(mask region-based CNN,Mask R-CNN)提取RGB視頻幀中兒童的15個關節點并估計其坐標,再利用粒子濾波估計視頻幀中未檢測到關節點的坐標位置,最后將這些關節點的運動軌跡表示的人體姿勢圖用于ASD刻板行為的識別。此外,傳統的機器學習算法[22](如支持向量機、決策樹、隨機森林法)也被用于處理基于人體關節點提取的空間信息(坐標位置)和時間信息(速度),其中決策樹算法在YouTube ASD數據集的精度達到了71%。
利用大規模人體行為數據集預訓練:文獻[30]利用大規模人體行為(Kinetics)數據集預訓練后的交互式3D雙流網絡,在一個小規模的ASD刻板行為數據集上進行微調,并融合RGB和光流兩種模態信息,在SSBD數據集上進行實驗,研究結果顯示識別精度為75.6%。然而,該研究所使用的3D雙流網絡結構,在小樣本數據集的計算上容易造成過擬合,且難以處理行為視頻中的時間信息,不能有效地對長時間的行為視頻進行分類。有指導的弱監督技術[28]基于Kinetics數據集與小樣本ASD數據集之間在光流空間的語義相似性,利用Kinetics數據集中的樣本重新訓練之前在ASD數據集上訓練得到的分類器,以提高分類器在小樣本ASD數據集上的泛化性。最終,該技術在SSBD數據集上的識別精度達到了95.7%。弱監督學習是一種利用大量無標注或者粗糙標注的樣本來提升模型性能的方法。然而,由于ASD異常行為具有較高的異質性和復雜性的問題,在實際臨床篩查與診斷中需要進一步探索如何進行細粒度行為的分類。
5 研究展望
近年來,隨著計算機視覺技術的發展日趨成熟,對ASD行為姿態特征的研究逐漸深入,本文總結了基于計算機視覺的ASD輔助診斷的研究現狀,并對未來的研究方向展望如下:
(1)開展易于體現兒童認知水平、社會情感的交互場景和交互內容的設計。目前現有的交互場景和內容過于單一,無法全面展現ASD患兒的認知能力和社交互動能力。通過深入分析患兒行為特征并參考早期丹佛模式,可以設計出更容易表現患兒認知水平和社交情感表達能力的交互場景和內容,這是實現基于視覺行為分析輔助ASD診斷的有效前提。
(2)建立多模態大規模的ASD數據集。ASD患兒的行為表現具有高度的異質性和復雜性,而現有ASD數據集的樣本量較小,難以保證識別算法的泛化性。為了更好地進行ASD輔助診斷,需要基于ASD臨床診斷標準,采集并標注多模態大規模ASD行為姿態特征數據,包括RGB圖像、光流圖像、深度圖像等,是實現ASD輔助診斷的必由之路。
(3)實現多模態特征的深度融合。現僅有少數輔助診斷方法利用多模態特征的深度融合(如表情、眼動、頭部、手部等姿態動作),進行多模態互補特征的提取、轉換與表征。多模態特征的有效深度融合可以提高診斷的準確性,是基于視覺行為分析ASD輔助診斷研究的一個重要研究方向。
(4)對長時空、細粒度特征展開行為分析。ASD患兒行為表現癥狀的嚴重程度不一,在動作頻率和強度上有很大差異,在病發過程中,可能會有多種行為混合發生。因此,在臨床分析中,需要對ASD兒童的異常行為進行長時間觀察分析。基于卷積和遞歸神經網絡相結合的長視頻行為檢測方法,如3D CNN和ConvLSTM,利用卷積進行空間特征學習,利用遞歸神經網絡進行時間動態建模,適合對兒童的歷史行為信息進行細粒度特征提取和時空行為特征分析,是提升基于視覺行為分析ASD輔助診斷性能的有效途徑。
(5)設計實現輕量級網絡。目前基于視覺行為分析的ASD輔助診斷研究,聚焦提高識別精度,但尚未考慮實際應用中的實時性要求和存儲空間的限制。設計輕量級網絡,減少時間和空間的復雜度,將算法設計與硬件實現相結合,降低對硬件資源的需求,是減少ASD輔助診斷成本、提高診斷效率的現實需要。
6 總結
本綜述對具有可量化的生物或行為標記的研究論文進行了綜合分析,可以使研究人員能夠快速獲得適用于其領域的研究成果,從而可以加速ASD輔助診斷的研究和技術工作進展。
本文從ASD行為學特征、交互場景、數據集和識別方法四個方面進行了分析和論述。首先簡單介紹了ASD典型行為的定義和特征,列出了臨床實踐診斷標準;在此基礎上,討論了遵循ADOS-2標準的視頻采集交互場景設計;其次,詳細介紹了現有的ASD輔助診斷行為視頻數據集,并深入討論了ASD輔助診斷視覺行為分析方法的特點。最后,展望了基于視覺行為分析的ASD輔助診斷研究的未來發展方向。期待未來基于視覺行為分析的ASD輔助診斷方法能夠更好地應用于臨床實踐,并為ASD的早期診斷和干預提供更有效的輔助手段。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:李翔主要負責文獻分析、論文撰寫和修改;馬昕主要負責論文修改和指導;李貽斌主要負責論文修改和審校。
0 引言
自閉癥譜系障礙(autism spectrum disorder,ASD)是常見的神經發育障礙性疾病,主要表現為社會溝通與交往缺陷和重復刻板行為。近年,ASD的患病率呈現顯著上升趨勢,美國疾病控制與預防中心的數據顯示,2021年美國ASD的患病率為1/44,與2002年的1/150相比,增加了241%[1]。2019年《中國自閉癥教育康復行業發展狀況報告III》推算,我國ASD患者超過1 000萬,并以每年約20萬人的速度增加[2],ASD已經成為全球性重大公共衛生問題。大量研究成果表明,針對ASD的早期干預治療能夠獲得較好的預后效果,有效提高患者的社會適應能力和認知能力[3],因而如何對ASD盡早地進行科學準確的識別和診斷是亟待解決的關鍵問題。
目前,ASD發病成因尚不明確,識別和診斷局限于臨床醫生通過量表[4]、會談問卷[4]、統計手冊[5]對兒童的成長歷史、社交技能和行為表現進行綜合評估,不僅耗時,而且依賴臨床醫生的專業技能和經驗知識。不同醫師的專業水平和臨床診斷經驗大不相同,很大程度上還會受到主觀因素的干擾,影響判斷[6]。
隨著計算機視覺技術和人工智能技術的快速發展,基于視覺行為分析的ASD輔助診斷研究受到了國內外學者越來越多的關注。計算機視覺技術在行為數據采集方面具有低成本和非接觸的優勢,人工智能技術具有強大的視頻理解能力,為科學準確地早期識別和診斷ASD提供了可能。此外,視覺行為數據采集具有非干預性和強隱蔽性的優點,為實現未成年人群的ASD早期篩查提供了有力的技術支撐[7]。
基于視覺行為分析的ASD輔助診斷研究,是以ASD的核心癥狀分析為基礎,設置互動場景,采集患者的行為視頻數據,提取特征,進而識別診斷。本文對近幾年國內外基于視覺行為分析的ASD輔助診斷研究進行綜述,首先簡要介紹ASD在社交互動、異常行為缺陷上的核心癥狀及臨床診斷標準;接著,按照核心癥狀不同,將現有研究設置的互動場景分為四大類,逐一詳細介紹;然后,整理并分析了現有數據集的內容和優缺點;最后,分析比較了不同互動場景下基于視覺行為分析的ASD識別診斷方法的優缺點,總結了該研究領域面臨的挑戰,展望了未來發展方向,以期促進視頻行為分析在ASD輔助診斷研究的臨床應用。
1 ASD行為學特征評估
兒童的行為學特征能夠反映其發育狀態,觀察兒童的溝通或行為能力,可以了解其生長發育狀況,還可以幫助判斷兒童是否患有認知或社交缺陷[8]。本節主要對ASD患者的核心癥狀和臨床診斷標準進行簡單論述。
1.1 核心癥狀
ASD患兒的核心癥狀表現為社交及溝通障礙和異常行為。
1.1.1 社交及溝通障礙
社交障礙是指嬰幼兒時期的ASD患者回避別人的目光接觸,對人的聲音缺乏興趣或者沒有反應[9]。ASD患兒一般不與同齡兒童玩耍,對父母缺乏依賴,這些社交障礙表現與正常發育(typical development,TD)兒童有明顯區別。
溝通障礙包括語言和非語言溝通障礙。大多數患者的語言功能發育落后,有些患兒在語言功能前期發育正常后出現語言倒退的現象,表現為自言自語、表達內容單調或者會出現“鸚鵡語言”的表現;ASD患者的非語言溝通障礙表現為缺少或不能使用眼神、手勢、面部表情、身體朝向或姿態進行正常的交流[5]。
1.1.2 異常行為
異常行為指的是刻板動作、重復性行為等癥狀。精神病學的研究表明,行為發育障礙是社交及溝通障礙的初期表現,可以作為診斷ASD的早期生物標記[10]。ASD患者的異常行為主要表現在粗大動作、精細動作以及運動動作的協調與運用障礙。
粗大動作是指個體大肌肉或大肌肉群的運動,ASD患者在粗大動作方面存在基本運動技能和運動控制的缺陷,如正常站立時身體搖晃不受控制或行走時步態失調等[11]。
精細動作是手及手指等部位的小肌肉或小肌肉群進行的動作,ASD患者在用手抓握和手指的靈活性方面存在缺陷[12]。
ASD患者運動動作協調和運用障礙是指在學習、游戲或其他社會活動中無法模仿或者按照指令要求完成一系列具有一定順序性和協調性的動作。例如,體育運動中難以控制自己的身體協調或者在執行一系列動作過程中反應遲緩[13]。
1.2 評估與診斷標準
國際公認的ASD診斷評估標準有美國精神障礙診斷與統計手冊第五版(diagnostic and statistical manual of mental disorders-5th edition,DSM-5)和基于此評估標準設計的自閉癥診斷觀察量表第二版(autism diagnostic observation schedule-2nd edition,ADOS-2)以及自閉癥診斷會談問卷(autism diagnostic interview-revised,ADI-R),這些評估量表和問卷皆是醫生慣用的臨床診斷工具。
1.2.1 診斷標準
患有ASD的兒童其發病時間大多都在發育早期,核心癥狀為社會溝通缺陷、限制性的興趣和重復性行為,依據DSM-5,ASD患者的確診必須要符合以下四個條件:
(1)一定場景下,在社交情感交互、語言交流行為(表情或手勢交流)、發展或理解關系三個方面存在持續性社交互動缺陷。
(2)受限制的行為或興趣模式,至少有以下兩個癥狀:刻板或重復動作、做事單調、對某事或某物具有異常強烈的興趣、對周圍環境的刺激反應異常。
(3)在嬰幼兒時期出現(1)和(2)癥狀。
(4)病癥導致日常行為受限,或嚴重影響正常生活。
1.2.2 診斷工具
基于DSM-5制定的診斷標準,醫生利用觀察量表或會談問卷,進行ASD臨床診斷。ADOS-2和ADI-R是國際上應用最廣泛的ASD臨床診斷工具,具有較高可靠性,通常被視為診斷ASD的金標準。前者是由專業醫師分析患兒行為的系統性評估工具[4];后者是基于家長回憶患兒的行為表現進行篩查的評估工具,側重于觀察患兒平時的語言溝通、社交互動能力和刻板活動。在臨床診斷過程中,兩種工具的使用比較耗時,且診斷醫師需要長時間培訓。在進行ADI-R評估時,由于大腦回憶機制的生理性限制,家長在描述內容時不可避免地產生記憶偏差或受主觀性影響[4]。
2 基于視覺行為分析的ASD輔助診斷場景
用于ASD輔助診斷視頻數據的獲取途徑有兩類,一類是研究者從視頻網站下載公開發布的ASD患者居家日常行為視頻,獲取ASD患者日常活動中的重復性和限制性行為影像資料,如頭部撞擊、身體前后搖晃、腳趾行走、繞圈行走等異常行為[14-15];另一類是設定互動場景采集受試者的行為視頻數據,不同的場景可以使患者受到不同的誘發刺激,刺激患者做出異常行為,從而獲得豐富的動作信息,如指尖的抓握動作、面部微表情等。專門設定的交互場景分為非語言溝通場景、社交性互動場景。
2.1 非語言溝通場景
為了獲取ASD患者利用手勢動作、眼神、面部表情、身體朝向及身體姿態進行非語言溝通的障礙表現,文獻[16]設置了手部抓握瓶子試驗,要求患兒用手對瓶子進行抓取、傳遞、放置、倒置,基于普通攝像頭拍攝的紅綠藍(red,green,blue,RGB)色彩模式視頻數據分析手部姿態動作,進行ASD識別;文獻[17]設定了傳遞玩具的場景,評估者和受試者坐在桌子的兩邊進行玩具傳遞,利用架設在桌子上方的RGB攝像機和動力學體感(kinetics connection, Kinect)深度攝像機(Microsoft corp.,美國)采集二者的手部行為數據,再進一步通過手部行為分析,判斷受試者是否能夠理解及完成傳遞動作;文獻[18]設定了手指指物場景,利用吹泡泡游戲對患兒的吸引力,收集患兒手指和眼神注視信息,分析其是否具有用手勢和眼神表達意愿的能力。
2.2 社交性互動場景
呼名反應能夠有效地反映受試者參與社交性交互活動的能力,也是ASD輔助診斷的常用場景,在患兒和家長玩玩具過程中,旁邊的測試者呼喚患兒的名字,利用RGB攝像頭和Kinect深度攝像機記錄數據,通過表情識別、頭部姿態估計、眼睛注視估計等,計算注視角度及注視時長,評估患兒呼名反應的遲緩程度[19]。
患兒在游戲中的表現也能夠反映其社交性交互能力,設置在患兒面前移動會發聲的玩具[20]、遙控卡通形狀機器人做動作和發聲[21]的游戲場景,吸引患兒注意力,采集RGB視頻和深度視頻,基于對患兒面部表情、注視方向、頭部姿態的分析進行社交性交互能力評估。
3 基于視覺行為分析的ASD輔助診斷數據集
目前用于ASD輔助診斷的視覺行為分析數據集按照其關注的核心癥狀分類,可以分為以下三類:日常活動中的異常動作數據集、手部精細動作數據集和社交性互動行為數據集。本節介紹公開發布且采用較多的數據集和近年采集的數據集,如表1所示。

3.1 日常活動中的異常動作數據集
自我刺激行為數據集(self-stimulatory behaviors dataset,SSBD)是研究者從視頻網站上下載視頻文件并進行標注制作的公開數據集[15]。該數據集包含三種自我刺激行為,即拍手、頭部撞擊和旋轉(頭部旋轉、身體旋轉、走圈),共計75個實例視頻,平均時長為90 s,像素為320×240。由于這些視頻均拍攝于非受限的家庭場景,存在異常行為持續時間短、強度和連續性不一致,以及視頻中人物空間位置多變等問題,給ASD輔助診斷任務帶來了巨大的挑戰。
油管ASD視頻數據集(YouTube ASD database)是英國基爾大學(University of Keele)提供的公開視頻數據集[22],由來自視頻網站的33個TD實例視頻和35個ASD實例視頻組成。視頻的總長度是90 min,處理后的每一個短視頻序列的時長大約是3~12 s。這些視頻呈現的是3~12歲兒童在日常生活中的表現,其中ASD兒童的異常行為有刻板拍手、跳躍或前后擺動、重復性地擺弄玩具等,可用于ASD的輔助診斷。
自然觀察診斷評估數據集(naturalistic observation diagnostic assessment,NODA)是監護人利用手機等設備在居家環境中拍攝兒童日常活動采集而成的數據集[23],共有8 349個片段(時長約為10 s),并由專業醫師對每一個視頻片段進行分類標注,以判斷參與兒童是否具有正常或異常行為。視頻中的活動類別包括:“獨自玩耍”、“與別人進行游戲”、“吃飯”和“父母的關心”等。
上海交通大學發布了總時長為40 h的ASD數據集(ASD40h),包括30個實例視頻,共五種ASD異常行為:拍手、撞頭、轉圈、用腳尖走路、在眼前活動手指[24]。實例視頻片段平均時長為41 s,其中ASD異常動作平均時長3.6 s,重復性行為平均時長為28.4 s。該數據集不僅適用于短時異常動作檢測,還可用于進行長時間的重復性行為識別。
三維(three-dimensional,3D)骨骼步態數據集(3D skeleton-based gait dataset)使用Kinect采集了50名ASD兒童和50名TD兒童沿直線行走的步態數據[14],包括25個關節點的位置信息和關節點之間的16個角度信息,可用于分析ASD患兒的異常步態。
擴展刻板行為數據集(expanded stereotype behavior dataset,ESBD)包含從視頻網站上收集制作的108名ASD兒童(男76名,女32名)的四類刻板行為(即旋轉、甩胳膊、手部運動和撞頭),共計141個實例視頻[25]。上述SSBD和ESBD只收集了ASD患兒的影像資料,缺乏TD兒童的影像資料,因此僅限于對ASD患兒的行為進行分類,無法實現ASD輔助診斷。
3.2 手部精細動作數據集
ASD檢測數據集(ASD detection dataset)是意大利模式分析和計算機視覺機構(Pattern Analysis & Computer Vision,PAVIS)利用分辨率為1 280×720、采樣率為100 幀/s的運動捕捉相機(Vicon VUE,Vicon Motion Systems Ltd.,英國)捕獲的視頻數據集[16]。該數據集包含了7~12歲的20名ASD患兒和20名TD兒童的四種抓握瓶子的手部動作(放置、倒入水、傳遞瓶子和倒出水)影像資料。
上海交通大學的研究團隊利用普通RGB相機采集了一個表達需求的指向(expressing needs with pointing,ENP)數據集[18],試驗對象包含16~32個月的8名ASD患兒和11名TD兒童,并由臨床醫生對采集后的19個實例視頻進行評估和標注。該數據集可用于根據兒童的食指或手掌的指向來分析其非語言溝通能力,從而達到早期篩查ASD的目的。
3.3 社交性互動行為數據集
德恩尼格瑪(De-Enigma)動作情緒數據集是由瑞典隆德大學(Lund University)發布的一個多模態數據集[26],包含了ASD患兒與醫師之間互動的影像數據。該數據集使用了第二代Kinect(Kinect V2)對治療師和ASD患兒在簡單場景玩游戲時所表現出的上體運動狀態進行了記錄,包括7位ASD患兒參與并完成的37類動作(舉手、伸展手臂、拍手、從治療師手中抽取卡片等),共3 757個實例視頻,每個視頻的平均時長為2.1 s。
呼名反應數據集(response to name,RTN)使用了一臺Kinect和兩臺分辨率為1 280×720的RGB相機,同步采集了27個實例視頻片段[19]。受試者均為2歲,包括5名ASD患兒和2名TD兒童。研究人員使用兩臺RGB相機來采集面部影像,該影像用于生成面部坐標、表情和眼部注視方向數據;Kinect主要被用于提取兒童的3D骨架和音頻信息。
計算機視覺分析(computer vision analysis,CVA)數據集使用了平板電腦的前置攝像頭記錄受試者的頭部運動,采集了22名ASD患兒和82名TD或發育遲緩兒童的影像資料,共104個實例視頻[27]。研究人員對兒童的面部進行檢測并生成49個標志點,然后再利用跟蹤技術來估算兒童頭部相對于攝像頭的位置,以評估受試者的注意力和方向感。
自閉癥(Autism)數據集使用3臺RGB相機同步錄制了1 481段視頻,每段視頻時長為2~5 s[28]。采集對象是37名ASD患兒,研究人員要求其模仿8種代表性的行為,包括“移動桌子”和“手臂向上”2種粗大動作、“鎖手”和“輕拍”2種精細動作,以及“滾動玻璃”、“觸摸鼻子”、“觸摸頭部”和“觸摸耳朵”4種復雜動作。
自閉癥診斷觀察量表(autism diagnostic observation schedule,ADOS)數據集和行為運動(Activis)數據集收集了受試者在進行ADOS評估期間的視頻資料[29-30]。前者共有年齡為1.2~6.9歲的169名ASD患兒和68名TD兒童參與,包括27個異常行為癥狀(指物動作、刻板的使用單字或片語、使用他人的身體進行溝通等),收集了237段實例視頻;后者共有60名3~6歲的ASD患兒參與,包括5類動作:拍手、鼓掌、品嘗、跳躍和其他,收集了388了段實例視頻。
3.4 數據集內容分析
數據的采集與分析是實現基于視覺行為分析的ASD輔助診斷的前提條件。然而,目前公開的數據難以對患兒的行為缺陷進行全面的定量或定性研究。因此,為了提高計算機視覺輔助診斷的篩查效率和準確率,需要不斷地改進和健全數據集。
目前在數據采集過程中仍存在許多待解決的問題。首先,ASD患兒的認知滯后和注意力缺乏等缺陷會導致醫師的示范動作無效或者需要反復示范,從而無法有效引導患兒表現出行為障礙。其次,ASD相關的數據集和其他普通數據集在采集與處理過程中存在許多區別:①ASD患者的部分刺激行為需要結合微表情或精細動作來分析;②由于ASD癥狀的嚴重程度不一致,每個ASD患者對同一行為的反應程度有很大的差異,如行為動作的頻率和強度存在差異;③錄制場景通常較為復雜,干擾因素多;④ASD癥狀的刺激性行為可能持續發生,也可能多種行為混合發生。最后,為了保證標注結果的準確性,醫師需要使用臨床診斷工具再次對處理后的數據進行專業評估和標注。然而,這一操作工作量巨大,且不同醫師專家對病癥的嚴重程度可能會給出不同的意見,因此,這也是ASD相關數據集較少的主要原因。
4 基于視覺行為分析的ASD輔助診斷方法
利用視頻數據進行ASD輔助診斷的方法主要聚焦于ASD核心癥狀,通過提取視頻中手部、頭部或身體的時空特征,以構建ASD患兒行為模式模型。根據關注的身體部位不同,ASD輔助診斷方法分為:基于手部姿態分析的ASD診斷、基于頭部姿態分析的ASD診斷和基于行為識別的ASD診斷。
4.1 基于手部姿態的ASD診斷
空間特征的提取:在ENP的試驗場景中[18],上海交通大學基于RGB視頻幀,利用目標檢測網絡“你只看一次第三版”(you only look once-version 3,YOLO V3)算法檢測兒童的手和泡泡水瓶。接著,研究人員設計了殘差網絡-18(residual network – 18,ResNet-18)對手部區域圖像進行手勢識別(食指指物、手掌指物、其他),以判斷是否存在指物手勢。同時,借助基于開放姿態(OpenPose)的算法,檢測兒童的手腕和手肘,確定前臂的朝向;基于亞歷克斯網絡(AlexNet),檢測手部關鍵點,以確定食指指向或者手掌指向。如有連續多幀的手勢符合食指指向,則判定為手指指向泡泡水瓶;如有連續多幀的手勢符合手掌指物,再結合手部運動的方向和距離,判斷手掌是否指向泡泡水瓶。該算法在包含有19位兒童的數據集上的識別精度達到了17/19。然而,該項研究未處理行為視頻中的時間信息,因此無法有效地結合上下文來分析行為特征。
時空特征的提取:文獻[16]利用遞歸深度神經網絡對視頻中的抓握手勢進行分析。首先,使用卷積神經網絡(convolutional neural networks,CNN)提取每一幀中的深度特征。然后,將這些特征依次輸入到長短時記憶網絡(long short-term memory,LSTM)中,該網絡能夠有效編碼視頻序列中時間信息。試驗采用留一法進行驗證,結果顯示,ASD的識別正確率為72%。文獻[31]利用了一種空間注意力雙線性池化方法,進一步提高空間特征的提取能力,在基于抓握手勢視頻的ASD識別中,其正確率達到了87%。為了在實際臨床中提高可用性并減少對硬件資源的需求,美國斯坦福大學(Stanford University)的研究人員利用輕量級網絡模型“移動網絡第二版”(mobilenet-version 2,MobileNet V2)和“媒體管道”(MediaPipe)來提取ASD患兒的刻板拍手動作的時空特征[32]。該研究基于SSBD數據集中的100個拍手視頻和100個其他動作視頻進行試驗,試驗結果表明,輕量級網絡模型具有較少的參數量和計算量,同時能夠達到89.6%的檢測精度。
4.2 基于頭部姿態的ASD診斷
基于頭部姿態的ASD診斷方法研究,包括利用計算頭部轉向角進行呼名反應的評估方法,以及基于深度學習技術以提取時空特征,實現對撞頭行為檢測的方法。
頭部轉向角:文獻[19]基于呼名反應場景中的視頻數據,利用行人檢測、骨架提取、語音識別、頭部姿態骨架識別、人臉表情識別和注視估計等算法,對兒童在呼名反應中的注視頻率、角度、持續時間等數據進行分析,以實現對ASD的輔助診斷。美國杜克大學(Duke University)的研究者們提取面部49個標志點[27],通過計算標志點與標準3D人臉模型的旋轉參數,估計兒童頭部轉向角度。如當呼名后2 s內頭部轉向角大于30°時,判斷為有反應。進一步基于重復四次的試驗結果,對兒童的呼名反應能力進行評分。然而,上述輔助診斷方法的泛化性較差,且主要側重于提取單一特征,如凝視、頭部轉向或視覺跟蹤等。考慮到ASD癥狀通常會伴隨著大量其他姿勢或動作的整體行為表現,單一特征的提取和分析往往無法充分捕捉ASD的復雜性行為。因此,需要開展更綜合的研究,結合多種特征和行為的分析,以實現對ASD的更準確和全面的輔助診斷。
時空特征:美國斯坦福大學采用時間分布CNN [33]和LSTM結合的方法,將其應用于SSBD數據集中檢測撞頭行為的任務,實現了高達90.77%的正確率。
4.3 基于行為分析的ASD診斷
局部特征:文獻[25]基于ESBD數據集,提取視頻中的梯度方向直方圖(histogram of oriented gradient,HOG)、定向光流直方圖(histograms of oriented optical flow,HOF)、HOG/HOF、尺度不變特征變換(scale-invariant feature transform,SIFT)和加速魯棒特征(speeded-up robust features,SURF)等局部描述子,并比較了多層感知機、樸素貝葉斯和支持向量機等傳統分類器對于手臂擺動、撞頭和身體旋轉等刻板行為的識別性能。在這些傳統的識別方法中,特征提取和建模過程較為復雜,識別效果很大程度上依賴于特征提取策略的選擇。
時空特征:文獻[25]利用3D CNN和卷積LSTM(convolutional LSTM,ConvLSTM),提取ESBD數據集中RGB視頻的時空特征,實現了對手臂擺動、撞頭和身體旋轉等刻板行為的識別。文獻[24]利用3D CNN提取時空特征,并結合時間金字塔網絡實現重復行為的判別。時間金字塔可以獲得更多時間序列上的信息,進行多尺度變化增強,但這樣會帶來極大的計算量。
關節點:一方面,研究人員基于Kinect V2獲取的人體關節點3D坐標位置及關節點軌跡[14]進行ASD診斷;另一方面,研究者們應用二維姿態檢測器阿爾法姿態(AlphaPose)[25]、OpenPose[22, 29]及3D重建技術[26]從RGB視頻幀中提取人體關節點的坐標位置,再利用CNN-LSTM深度網絡進行異常行為識別,實現ASD診斷。文獻[23]利用掩膜區域CNN(mask region-based CNN,Mask R-CNN)提取RGB視頻幀中兒童的15個關節點并估計其坐標,再利用粒子濾波估計視頻幀中未檢測到關節點的坐標位置,最后將這些關節點的運動軌跡表示的人體姿勢圖用于ASD刻板行為的識別。此外,傳統的機器學習算法[22](如支持向量機、決策樹、隨機森林法)也被用于處理基于人體關節點提取的空間信息(坐標位置)和時間信息(速度),其中決策樹算法在YouTube ASD數據集的精度達到了71%。
利用大規模人體行為數據集預訓練:文獻[30]利用大規模人體行為(Kinetics)數據集預訓練后的交互式3D雙流網絡,在一個小規模的ASD刻板行為數據集上進行微調,并融合RGB和光流兩種模態信息,在SSBD數據集上進行實驗,研究結果顯示識別精度為75.6%。然而,該研究所使用的3D雙流網絡結構,在小樣本數據集的計算上容易造成過擬合,且難以處理行為視頻中的時間信息,不能有效地對長時間的行為視頻進行分類。有指導的弱監督技術[28]基于Kinetics數據集與小樣本ASD數據集之間在光流空間的語義相似性,利用Kinetics數據集中的樣本重新訓練之前在ASD數據集上訓練得到的分類器,以提高分類器在小樣本ASD數據集上的泛化性。最終,該技術在SSBD數據集上的識別精度達到了95.7%。弱監督學習是一種利用大量無標注或者粗糙標注的樣本來提升模型性能的方法。然而,由于ASD異常行為具有較高的異質性和復雜性的問題,在實際臨床篩查與診斷中需要進一步探索如何進行細粒度行為的分類。
5 研究展望
近年來,隨著計算機視覺技術的發展日趨成熟,對ASD行為姿態特征的研究逐漸深入,本文總結了基于計算機視覺的ASD輔助診斷的研究現狀,并對未來的研究方向展望如下:
(1)開展易于體現兒童認知水平、社會情感的交互場景和交互內容的設計。目前現有的交互場景和內容過于單一,無法全面展現ASD患兒的認知能力和社交互動能力。通過深入分析患兒行為特征并參考早期丹佛模式,可以設計出更容易表現患兒認知水平和社交情感表達能力的交互場景和內容,這是實現基于視覺行為分析輔助ASD診斷的有效前提。
(2)建立多模態大規模的ASD數據集。ASD患兒的行為表現具有高度的異質性和復雜性,而現有ASD數據集的樣本量較小,難以保證識別算法的泛化性。為了更好地進行ASD輔助診斷,需要基于ASD臨床診斷標準,采集并標注多模態大規模ASD行為姿態特征數據,包括RGB圖像、光流圖像、深度圖像等,是實現ASD輔助診斷的必由之路。
(3)實現多模態特征的深度融合。現僅有少數輔助診斷方法利用多模態特征的深度融合(如表情、眼動、頭部、手部等姿態動作),進行多模態互補特征的提取、轉換與表征。多模態特征的有效深度融合可以提高診斷的準確性,是基于視覺行為分析ASD輔助診斷研究的一個重要研究方向。
(4)對長時空、細粒度特征展開行為分析。ASD患兒行為表現癥狀的嚴重程度不一,在動作頻率和強度上有很大差異,在病發過程中,可能會有多種行為混合發生。因此,在臨床分析中,需要對ASD兒童的異常行為進行長時間觀察分析。基于卷積和遞歸神經網絡相結合的長視頻行為檢測方法,如3D CNN和ConvLSTM,利用卷積進行空間特征學習,利用遞歸神經網絡進行時間動態建模,適合對兒童的歷史行為信息進行細粒度特征提取和時空行為特征分析,是提升基于視覺行為分析ASD輔助診斷性能的有效途徑。
(5)設計實現輕量級網絡。目前基于視覺行為分析的ASD輔助診斷研究,聚焦提高識別精度,但尚未考慮實際應用中的實時性要求和存儲空間的限制。設計輕量級網絡,減少時間和空間的復雜度,將算法設計與硬件實現相結合,降低對硬件資源的需求,是減少ASD輔助診斷成本、提高診斷效率的現實需要。
6 總結
本綜述對具有可量化的生物或行為標記的研究論文進行了綜合分析,可以使研究人員能夠快速獲得適用于其領域的研究成果,從而可以加速ASD輔助診斷的研究和技術工作進展。
本文從ASD行為學特征、交互場景、數據集和識別方法四個方面進行了分析和論述。首先簡單介紹了ASD典型行為的定義和特征,列出了臨床實踐診斷標準;在此基礎上,討論了遵循ADOS-2標準的視頻采集交互場景設計;其次,詳細介紹了現有的ASD輔助診斷行為視頻數據集,并深入討論了ASD輔助診斷視覺行為分析方法的特點。最后,展望了基于視覺行為分析的ASD輔助診斷研究的未來發展方向。期待未來基于視覺行為分析的ASD輔助診斷方法能夠更好地應用于臨床實踐,并為ASD的早期診斷和干預提供更有效的輔助手段。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:李翔主要負責文獻分析、論文撰寫和修改;馬昕主要負責論文修改和指導;李貽斌主要負責論文修改和審校。