罕見病存在患者病例數少、社會知曉率低、確診時間長的問題,“針對性配醫”是幫助罕見病患者開始正確診療路徑的第一步。該文介紹了通過構建罕見病及專家融合型知識圖譜、利用智能問答系統、結合大數據和人工智能方法,設計出的一款針對患者的罕見病就醫決策引擎。此引擎可以通過患者畫像等信息進行罕見病預篩查,并向患者推薦最佳就醫路徑,從而提高罕見病患者就醫效率,有效推動我國罕見病醫療服務體系的改革,增強罕見病就醫決策能力。
引用本文: 陳一龍, 卜嘉彬, 李景宇, 李東澤, 龔力, 萬智. 基于知識圖譜的罕見病就醫決策引擎設計研究. 華西醫學, 2021, 36(12): 1730-1733. doi: 10.7507/1002-0179.202111004 復制
2018年國家衛生健康委員會等5部門聯合制定了《第一批罕見病目錄》,確定了121種罕見病,加強了我國罕見病管理[1]。2020年習近平總書記提出堅持“四個面向”來加快科技創新,其中之一為“面向人民生命健康”[2],把衛生醫療的科技創新提到了新的高度。目前我國罕見病患病總人數為 2000 萬左右[3],大多屬于嚴重而難治的遺傳性疾病,嚴重危害人民生命健康。罕見病患者單病種病例數少,社會知曉率低,患者多就醫不當,確診難度高,病死率高,在防治和確診上有較大困難[4-5]。雖然當前國內大多數醫院已采用“互聯網+”導診模式幫助患者選擇正確科室就醫,但對于罕見病患者,進行精準、針對性的“配醫”更有助于其得到治療;因此,“針對性配醫”是幫助罕見病患者進入正確診療路徑的第一步。然而,目前大多數罕見病患者往往選擇常規科室進行就醫,導致“針對性配醫”難以啟動。因此,我們擬構建罕見病及專家融合型知識圖譜,通過人機交互智能問答系統,結合統計、大數據和人工智能方法技術,設計一款針對患者的罕見病就醫決策引擎,通過患者畫像等信息進行罕見病篩查,并應用“互聯網+”技術向患者推薦就醫渠道,為實現“針對性配醫”做好基礎,完善罕見病管理流程提供支持。
1 罕見病就醫決策引擎設計
罕見病就醫決策引擎,意在利用知識圖譜技術與“互聯網+”技術,并結合大數據與人工智能算法,對罕見病患者進行有效篩查,針對性地對可能患有罕見病的患者推薦就診醫師。綜合上述技術的就醫決策引擎,可以增強罕見病患者自我認知,提高罕見病患者自我管控,優化罕見病患者診前服務。
1.1 罕見病及專家融合型知識圖譜設計
知識圖譜實質是以點和線構成的圖形化關系網絡[6],與誕生于20世紀50年代末60年代初的語義網類似,均是以實現人機溝通無障礙為目的[7],同時也是對知識的一種儲備形式。知識圖譜的普及使得醫療健康的應用更加智能化,尤其是在臨床決策[8-9]、智能問答[10]、慢病管理系統上面有較大普及[11]。我們設計的罕見病及專家融合型知識圖譜,與其他疾病類知識圖譜相比較,進行了各個罕見病相關專家的信息融合,其主要由原始數據層、詞匯數據層、分類表達層、計算層和應用層構成[12](圖1)。

NLP:自然語言處理
1.1.1 原始數據層構建
原始數據層主要收集各類原始數據,此類數據的來源包括各種權威的指南、罕見病的歷史病歷數據以及罕見病專家的信息。其中權威指南主要以2019年出版的《罕見病診療指南(2019版)》[5]為主,罕見病的歷史病例數據主要以四川大學華西醫院近10年來患有121種罕見病的患者數據為主,罕見病專家信息主要來自具有罕見病治理能力的醫院。在收集原始數據時,由于互聯網上面大部分內容并未得到權威機構或者人士的核實與驗證,因此不推薦使用互聯網上面的信息作為原始數據層的信息。
1.1.2 詞匯數據層構建
詞匯數據層包括每種罕見病的定義、特征、癥狀、就診方案、相關病種等信息,以及各個罕見病專家的姓名、等級、領域、出診時間、出診地點等信息。這些信息有些是屬于結構化的數據,有些是屬于半結構化的數據,還有一些是屬于非結構化的數據。針對結構化的數據[13],如患者性別、年齡等信息,可以直接作為有效詞匯納入;針對非結構化數據,比如患者自訴的文字信息,需應用自然語言處理(natural language processing,NLP)技術進行句式的分段和詞匯的提取,從而得到有效詞匯;半結構化數據介于結構化數據與非結構化數據之間,其缺乏固定的數據模式,多出現于HTML格式和XML格式的文件里面,此類數據應著重抓取其結構化部分的信息[14]作為有效詞匯納入。在同一種疾病里面的有效詞匯進行兩兩關聯,可以為下一步分類表達層構建做好鋪墊。
1.1.3 分類表達層構建
一個有效詞匯可能會與多個有效詞匯都形成關聯,比如“心臟”會與“冠狀動脈擴張病”和“特發性心肌病”產生關聯,甚至同一個醫生的專長會同時包含“冠狀動脈擴張病”和“特發性心肌病”。這種情況下需要用到共詞分析法[15],以兩兩有效詞匯之間的關聯度進行距離分析,進一步聚類成多個不同的類別。由于罕見病的多樣性,不同疾病的特征和信息具有較高的特異度,因此相關的有效詞匯更容易被聚類到同一個罕見病范圍里面,而各個罕見病之間也更容易聚類成不同的整體。當計算機接收到一個關鍵詞匯時,則會匹配此關鍵詞匯關聯度最大的罕見疾病;當計算機接收到多個關鍵詞匯時,則可以根據多個關鍵詞匯推斷出最符合患者所患的罕見疾病。分類表達層與詞匯數據層不同的是,詞匯數據層里面包含從原始數據層得到且并未進行任何疾病分類的詞匯,而分類表達層是通過共詞分析算法,以詞匯之間的相似度對詞匯進行聚類,從而分成不同的疾病專屬分類詞匯團,并作為指標用于后續的建模算法計算。
1.1.4 計算層與應用層構建
計算層囊括有分類表達層過渡到應用層所使用的技術和方法,應用層展示了罕見病及專家融合型知識圖譜在罕見病這一領域的系統應用。其中,機器學習算法和大數據算法可以應用到輔助診斷系統和配醫決策系統;NLP技術可以應用到智能問答系統;統計模型可以應用到疾病管理系統。我們設計的知識圖譜將作為智能問答和就醫決策系統的基礎組成部分。
1.2 罕見病就醫決策路徑設計
罕見病就醫決策路徑將基于智能問答系統收集患者相關信息,結合罕見病及專家融合型知識圖譜,應用大數據與人工智能算法,篩查出患者可能患有的罕見疾病,并針對性地推薦患者前往專家處就醫(圖2)。

NLP:自然語言處理;KNN:K-近鄰;SVM:支持向量機
1.2.1 智能問答輔助篩查系統
基于罕見病與專家融合型知識圖譜,可以通過系統對患者的問答,加以NLP和機器學習算法處理,進行罕見病概率計算。系統里面問題的設計是關鍵,需以問題引導患者進行方向性回答,從而抓取有效信息。因此,系統問題需根據臨床醫生的自身經驗、患者自訴文本大數據的挖掘、文獻和臨床指南的內容以及知識圖譜[16-17]進行綜合性考慮設計。此外,系統需根據患者的回答進行遞進式提問,并非固定順序式問答[18]。比如,當問完患者哪里不舒服,患者回答心臟不舒服,這時應匹配心臟相關的其他詞匯,從而進行深層次問答,縮小篩查范圍。最后,系統的問題不應過于復雜且難懂,如若提問中含有醫學名詞,應立即在提問后方給出該詞的普適性解釋。
1.2.2 個性化配醫推薦方案
經過智能問答,系統通過患者的回答,搜集相應的畫像指標,采用機器學習算法模型,判斷出患者有極大概率(>80%)患有某種罕見病時,應匹配并推薦該罕見病在知識圖譜中相關性較大的醫生給患者,并建議患者進行精準就醫。這樣精準的醫生和疾病的匹配(“醫病”匹配)可以讓患者接受有效、快速、精準的治療,減少患者確診時間,同時能夠有效管理醫院和社區的資源,節省醫療資源,增強資源配置。
1.2.3 基于實時資源的配醫路徑優化方案
在對患者進行“醫病”匹配時,往往會有多個專家都可以作為匹配對象,為了找到適合患者的最佳就醫專家,應根據專家的就診距離、就診時間、就診剩余量等信息進行綜合性評估,從而選出最優方案。同時,若患者已在某家醫院就診,則可根據“互聯網+”分級診療模式[19-20],讓患者直接轉院至最佳就診醫生處進行就醫,提高了患者依從性的同時,也給予了患者服務上的方便,避免了重新掛號就醫的麻煩。
2 罕見病就醫決策引擎的推廣
如果大眾都通過罕見病就醫決策引擎對自己進行一次自主篩查,那么罕見病的確診率和管控度均將得到有效提高。但由于當前社會對罕見病的認知度不高,可能很少有人會主動想到使用就醫決策引擎,因此對群眾的宣傳教育就顯得極為重要。我們將從醫院患者篩查、科普推薦和患者自主搜索3個角度對罕見病就醫決策引擎進行推廣宣傳。
2.1 醫院患者的自查和篩查
醫院是最有可能發現罕見病患者的地方。由于罕見病誤診率高,通過醫院信息系統對患者的個人數據進行一次篩查,可以找到潛在的“誤診”罕見病患者,此時可以將罕見病就醫決策引擎推薦給此患者進行就醫推薦。此外,“互聯網+”的推廣使得互聯網醫院越來越多,我們將罕見病就醫決策引擎嵌入到互聯網醫院的模塊里面,可以讓就診患者進行罕見病自主篩查。
2.2 多媒體科普推薦
通過微信上面罕見病相關的公眾號、微博等其他社交網絡的公眾號以及新聞媒體對121種罕見病進行科普,并在科普的同時將罕見病就醫決策引擎推薦給閱覽者,從而提高社會對罕見病就醫決策引擎的使用。
2.3 互聯網自主搜索推薦
信息化的進步,使得幾乎每個人的生活都離不開互聯網的介入。當有人在互聯網上對“罕見病”相關詞匯進行搜索時,“罕見病就醫決策引擎”字樣將主動呈現在搜索結果中推薦給搜索者,從而提高人們對罕見病就醫決策引擎的使用率。
3 結語
我們構建了一個罕見病知識庫和罕見病專家庫融合型的知識圖譜框架,計劃在后續研究中結合國內罕見病現狀,以及前期文獻的報道,針對性地分析各層級間的聯系和邏輯,更加細化地展現模型和技術手段。同時,我們以此知識圖譜為基礎,設計了一款罕見病就醫決策引擎,通過與患者就診前的智能問答系統搜集患者畫像信息,根據人工智能算法計算患者患有罕見病的可能性,智能化地推薦最佳就醫專家,以提高罕見病患者就醫效率,使患者得到專業化治療。希望借此有效推動我國罕見病醫療服務體系的改革,創新醫療服務模式,增強就醫決策能力。
利益沖突:所有作者聲明不存在利益沖突。
2018年國家衛生健康委員會等5部門聯合制定了《第一批罕見病目錄》,確定了121種罕見病,加強了我國罕見病管理[1]。2020年習近平總書記提出堅持“四個面向”來加快科技創新,其中之一為“面向人民生命健康”[2],把衛生醫療的科技創新提到了新的高度。目前我國罕見病患病總人數為 2000 萬左右[3],大多屬于嚴重而難治的遺傳性疾病,嚴重危害人民生命健康。罕見病患者單病種病例數少,社會知曉率低,患者多就醫不當,確診難度高,病死率高,在防治和確診上有較大困難[4-5]。雖然當前國內大多數醫院已采用“互聯網+”導診模式幫助患者選擇正確科室就醫,但對于罕見病患者,進行精準、針對性的“配醫”更有助于其得到治療;因此,“針對性配醫”是幫助罕見病患者進入正確診療路徑的第一步。然而,目前大多數罕見病患者往往選擇常規科室進行就醫,導致“針對性配醫”難以啟動。因此,我們擬構建罕見病及專家融合型知識圖譜,通過人機交互智能問答系統,結合統計、大數據和人工智能方法技術,設計一款針對患者的罕見病就醫決策引擎,通過患者畫像等信息進行罕見病篩查,并應用“互聯網+”技術向患者推薦就醫渠道,為實現“針對性配醫”做好基礎,完善罕見病管理流程提供支持。
1 罕見病就醫決策引擎設計
罕見病就醫決策引擎,意在利用知識圖譜技術與“互聯網+”技術,并結合大數據與人工智能算法,對罕見病患者進行有效篩查,針對性地對可能患有罕見病的患者推薦就診醫師。綜合上述技術的就醫決策引擎,可以增強罕見病患者自我認知,提高罕見病患者自我管控,優化罕見病患者診前服務。
1.1 罕見病及專家融合型知識圖譜設計
知識圖譜實質是以點和線構成的圖形化關系網絡[6],與誕生于20世紀50年代末60年代初的語義網類似,均是以實現人機溝通無障礙為目的[7],同時也是對知識的一種儲備形式。知識圖譜的普及使得醫療健康的應用更加智能化,尤其是在臨床決策[8-9]、智能問答[10]、慢病管理系統上面有較大普及[11]。我們設計的罕見病及專家融合型知識圖譜,與其他疾病類知識圖譜相比較,進行了各個罕見病相關專家的信息融合,其主要由原始數據層、詞匯數據層、分類表達層、計算層和應用層構成[12](圖1)。

NLP:自然語言處理
1.1.1 原始數據層構建
原始數據層主要收集各類原始數據,此類數據的來源包括各種權威的指南、罕見病的歷史病歷數據以及罕見病專家的信息。其中權威指南主要以2019年出版的《罕見病診療指南(2019版)》[5]為主,罕見病的歷史病例數據主要以四川大學華西醫院近10年來患有121種罕見病的患者數據為主,罕見病專家信息主要來自具有罕見病治理能力的醫院。在收集原始數據時,由于互聯網上面大部分內容并未得到權威機構或者人士的核實與驗證,因此不推薦使用互聯網上面的信息作為原始數據層的信息。
1.1.2 詞匯數據層構建
詞匯數據層包括每種罕見病的定義、特征、癥狀、就診方案、相關病種等信息,以及各個罕見病專家的姓名、等級、領域、出診時間、出診地點等信息。這些信息有些是屬于結構化的數據,有些是屬于半結構化的數據,還有一些是屬于非結構化的數據。針對結構化的數據[13],如患者性別、年齡等信息,可以直接作為有效詞匯納入;針對非結構化數據,比如患者自訴的文字信息,需應用自然語言處理(natural language processing,NLP)技術進行句式的分段和詞匯的提取,從而得到有效詞匯;半結構化數據介于結構化數據與非結構化數據之間,其缺乏固定的數據模式,多出現于HTML格式和XML格式的文件里面,此類數據應著重抓取其結構化部分的信息[14]作為有效詞匯納入。在同一種疾病里面的有效詞匯進行兩兩關聯,可以為下一步分類表達層構建做好鋪墊。
1.1.3 分類表達層構建
一個有效詞匯可能會與多個有效詞匯都形成關聯,比如“心臟”會與“冠狀動脈擴張病”和“特發性心肌病”產生關聯,甚至同一個醫生的專長會同時包含“冠狀動脈擴張病”和“特發性心肌病”。這種情況下需要用到共詞分析法[15],以兩兩有效詞匯之間的關聯度進行距離分析,進一步聚類成多個不同的類別。由于罕見病的多樣性,不同疾病的特征和信息具有較高的特異度,因此相關的有效詞匯更容易被聚類到同一個罕見病范圍里面,而各個罕見病之間也更容易聚類成不同的整體。當計算機接收到一個關鍵詞匯時,則會匹配此關鍵詞匯關聯度最大的罕見疾病;當計算機接收到多個關鍵詞匯時,則可以根據多個關鍵詞匯推斷出最符合患者所患的罕見疾病。分類表達層與詞匯數據層不同的是,詞匯數據層里面包含從原始數據層得到且并未進行任何疾病分類的詞匯,而分類表達層是通過共詞分析算法,以詞匯之間的相似度對詞匯進行聚類,從而分成不同的疾病專屬分類詞匯團,并作為指標用于后續的建模算法計算。
1.1.4 計算層與應用層構建
計算層囊括有分類表達層過渡到應用層所使用的技術和方法,應用層展示了罕見病及專家融合型知識圖譜在罕見病這一領域的系統應用。其中,機器學習算法和大數據算法可以應用到輔助診斷系統和配醫決策系統;NLP技術可以應用到智能問答系統;統計模型可以應用到疾病管理系統。我們設計的知識圖譜將作為智能問答和就醫決策系統的基礎組成部分。
1.2 罕見病就醫決策路徑設計
罕見病就醫決策路徑將基于智能問答系統收集患者相關信息,結合罕見病及專家融合型知識圖譜,應用大數據與人工智能算法,篩查出患者可能患有的罕見疾病,并針對性地推薦患者前往專家處就醫(圖2)。

NLP:自然語言處理;KNN:K-近鄰;SVM:支持向量機
1.2.1 智能問答輔助篩查系統
基于罕見病與專家融合型知識圖譜,可以通過系統對患者的問答,加以NLP和機器學習算法處理,進行罕見病概率計算。系統里面問題的設計是關鍵,需以問題引導患者進行方向性回答,從而抓取有效信息。因此,系統問題需根據臨床醫生的自身經驗、患者自訴文本大數據的挖掘、文獻和臨床指南的內容以及知識圖譜[16-17]進行綜合性考慮設計。此外,系統需根據患者的回答進行遞進式提問,并非固定順序式問答[18]。比如,當問完患者哪里不舒服,患者回答心臟不舒服,這時應匹配心臟相關的其他詞匯,從而進行深層次問答,縮小篩查范圍。最后,系統的問題不應過于復雜且難懂,如若提問中含有醫學名詞,應立即在提問后方給出該詞的普適性解釋。
1.2.2 個性化配醫推薦方案
經過智能問答,系統通過患者的回答,搜集相應的畫像指標,采用機器學習算法模型,判斷出患者有極大概率(>80%)患有某種罕見病時,應匹配并推薦該罕見病在知識圖譜中相關性較大的醫生給患者,并建議患者進行精準就醫。這樣精準的醫生和疾病的匹配(“醫病”匹配)可以讓患者接受有效、快速、精準的治療,減少患者確診時間,同時能夠有效管理醫院和社區的資源,節省醫療資源,增強資源配置。
1.2.3 基于實時資源的配醫路徑優化方案
在對患者進行“醫病”匹配時,往往會有多個專家都可以作為匹配對象,為了找到適合患者的最佳就醫專家,應根據專家的就診距離、就診時間、就診剩余量等信息進行綜合性評估,從而選出最優方案。同時,若患者已在某家醫院就診,則可根據“互聯網+”分級診療模式[19-20],讓患者直接轉院至最佳就診醫生處進行就醫,提高了患者依從性的同時,也給予了患者服務上的方便,避免了重新掛號就醫的麻煩。
2 罕見病就醫決策引擎的推廣
如果大眾都通過罕見病就醫決策引擎對自己進行一次自主篩查,那么罕見病的確診率和管控度均將得到有效提高。但由于當前社會對罕見病的認知度不高,可能很少有人會主動想到使用就醫決策引擎,因此對群眾的宣傳教育就顯得極為重要。我們將從醫院患者篩查、科普推薦和患者自主搜索3個角度對罕見病就醫決策引擎進行推廣宣傳。
2.1 醫院患者的自查和篩查
醫院是最有可能發現罕見病患者的地方。由于罕見病誤診率高,通過醫院信息系統對患者的個人數據進行一次篩查,可以找到潛在的“誤診”罕見病患者,此時可以將罕見病就醫決策引擎推薦給此患者進行就醫推薦。此外,“互聯網+”的推廣使得互聯網醫院越來越多,我們將罕見病就醫決策引擎嵌入到互聯網醫院的模塊里面,可以讓就診患者進行罕見病自主篩查。
2.2 多媒體科普推薦
通過微信上面罕見病相關的公眾號、微博等其他社交網絡的公眾號以及新聞媒體對121種罕見病進行科普,并在科普的同時將罕見病就醫決策引擎推薦給閱覽者,從而提高社會對罕見病就醫決策引擎的使用。
2.3 互聯網自主搜索推薦
信息化的進步,使得幾乎每個人的生活都離不開互聯網的介入。當有人在互聯網上對“罕見病”相關詞匯進行搜索時,“罕見病就醫決策引擎”字樣將主動呈現在搜索結果中推薦給搜索者,從而提高人們對罕見病就醫決策引擎的使用率。
3 結語
我們構建了一個罕見病知識庫和罕見病專家庫融合型的知識圖譜框架,計劃在后續研究中結合國內罕見病現狀,以及前期文獻的報道,針對性地分析各層級間的聯系和邏輯,更加細化地展現模型和技術手段。同時,我們以此知識圖譜為基礎,設計了一款罕見病就醫決策引擎,通過與患者就診前的智能問答系統搜集患者畫像信息,根據人工智能算法計算患者患有罕見病的可能性,智能化地推薦最佳就醫專家,以提高罕見病患者就醫效率,使患者得到專業化治療。希望借此有效推動我國罕見病醫療服務體系的改革,創新醫療服務模式,增強就醫決策能力。
利益沖突:所有作者聲明不存在利益沖突。