為進一步完善中成藥綜合評價技術體系,建立符合中成藥特點的指標測量工具,本研究團隊基于機器學習算法,提出并構建了基于知識引導和數據驅動的中成藥綜合評價模型(EDCEM-CPM),該模型通過數據預處理、聚類算法、數據訓練等步驟,最終得到每個指標維度的權重,實現對中成藥品種測算計分,以綜合評價中成藥多維度價值,現該評價模型已應用于實踐中。本文對該評價模型的建立和計算過程進行詳細介紹,以供參考使用。
引用本文: 溫浩, 王巍力, 張海力, 呂茂斌, 張偉, 宋填, 楊偉, 車前子, 梁寧, 趙晨, 呂誠, 王燕平, 史楠楠, 王坤峰. 多維度多準則中成藥綜合評價技術指導原則解讀:評價模型的建立. 中國循證醫學雜志, 2022, 22(10): 1196-1200. doi: 10.7507/1672-2531.202206101 復制
藥品臨床綜合評價是評價主體應用多種評價方法和工具開展的多維度、多層次證據的綜合評價,是藥品供應保障決策的重要技術工具[1]。中成藥綜合評價是以中成藥為評價對象,應用合理的研究方法對其臨床價值、衛生經濟學價值等進行多維度綜合評價的研究。近期已發布的“多維度多準則中成藥綜合評價技術指導原則”(以下簡稱“指導原則”)中指出,開展關于中成藥的綜合評價研究工作,應包含評價指標體系的構建和評價指標測量工具兩大部分。關于評價指標體系的構建,近年已有多位學者展開探索,如通過臨床價值、科學價值、市場價值三大要素來衡量中成藥的價值[2],通過臨床定位準確性、比較優勢顯著性、安全可控性、組方合理性、資源可持續性、生產可行性等維度來評估中成藥價值[3],或基于中醫藥特色框架,構建以安全、有效、經濟、應用、科學和標準為評價要點的中成藥綜合評價指標體系等[4]系列探索。而對于評價工具和評價模型的選擇,當前研究尚有不足,部分團隊或未進行說明,或以簡單測算、專家共識等方法進行,而基于專家共識方法對評價指標進行人為賦分、確定權重的評價方式使得藥物評價過程過于依賴專家經驗,導致主觀偏倚過大,進而影響評價結果的客觀性、參照性、可靠性和臨床應用轉化。
“指導原則”中指出中成藥綜合評價指標測量工具應根據中成藥指標數據多源異構、高維度、小樣本、無標簽等特點和中醫藥理論特色中重視專家智慧和經驗等方面綜合考慮后而進行選擇,且應具有評價方法客觀可復制、便于大范圍推廣應用、結果快速易得等特點,并建議借助人工智能技術手段,對中成藥指標數據進行歸一化、降維、標簽處理。因此,為解決中成藥數據維度復雜、評價較難的問題,本文基于機器學習方法構建了基于知識引導和數據驅動的中成藥綜合評價模型(expert-knowledge and data-driven comprehensive evaluation model of Chinese patent medicine,EDCEM-CPM),包括數據清洗、維度的合并處理、聚類算法、數據訓練[5-7]等步驟。本文將對該評價模型的探索性建立過程及相關內容進行解讀,以供相關研究主體更好地參考使用。
1 綜合評價方法現狀分析
綜合評價方法是指根據證據及證據等級確定價值因素的權重大小[8]。目前常見的綜合評價方法有基于咨詢的德爾菲法、基于排序或評價價值的層次分析法[9]以及基于粗糙集理論的多準則決策分析法[10],已用于各類綜合評價研究中[5,7,11-12]。而以上常用綜合評價方法各自有著較為明顯的優勢與不足,如層次分析法具有系統性強、簡單實用的優點,但評價指標或數據量過多時,確定不同指標權重大小的難度較高[13]。德爾菲法具有專業性強,權威性高的特色優勢,但同時存在一定的主觀片面性,受專家團隊的主觀影響較大。多準則決策分析法具有透明度高、能夠提升評價結果的合理性和一致性的優點,但應用較為有限、決策效率較低且工作量較大[13]。
隨著現代信息科技的不斷發展和醫療行業的壯大,信息化診療成為大趨勢,人工智能技術因其客觀智能的計算特點和優勢已逐步應用于醫學領域。侯桂英[14]等利用人工神經網絡和專家系統相結合的方法,建立了針對高血壓診斷的智能醫療診斷系統模型,為輔助臨床醫師對高血壓患者做出快速準確的診斷提供了相關依據。蘇芮等[15]基于外感熱病古代醫案數據,采用適合中醫混合數據集的混合檢索方法,構建出外感熱病中醫病案的案例推理模型,并在此基礎上研發出人工智能臨床輔助決策系統,為中醫古代醫案經驗在臨床上的應用提供了新的有效途徑。許夢白等[16]基于相關文獻資料,采用隨機森林、支持向量分類、k-近鄰、人工神經網絡及統計學注意力神經網絡模型來構建不孕癥辨證模型,為探索不孕癥的辨證方法、不孕癥的中醫證候客觀化提供了研究思路。徐佳君等[17]基于狀態辨識的結果設計出人工智能組方模型,該模型能夠解決推薦處方難以滿足需求的情況。許鴻本等[18]基于知識驅動及知識工程、數據驅動及大數據等人工智能技術要素,構建出中醫診療系統,該系統既充分體現中醫思維,也滿足臨床實際需求。
機器學習算法在中醫領域已有很多應用案例,研究表明,通過使用機器學習算法實現客觀、可解釋、準確的中醫診斷和評價模型是可行的。以上案例為中成藥綜合評價模型的建立提供了很好的參考和借鑒,但需根據中成藥評價數據的特點和評價目的選擇合適的機器學習算法。因此,項目組在現有綜合評價方法的基礎上,根據中成藥綜合評價指標體系所獲取原始數據特點,提出了EDCEM-CPM。
2 EDCEM-CPM模型的提出
中成藥評價數據復雜,表現為連續性、離散型數據,又具有部分數據缺失的復雜的高維數據特征,且具有模糊性等特點。上述綜合評價方法不能完全滿足這類數據的特點和解決以上問題,因此需根據中成藥數據基本特點,構建恰當的評價模型算法。一方面保證評價過程的客觀性,另一方面處理中成藥這類高維度、小樣本、無標簽、模糊的評價數據難題。本研究選用人工智能的弱監督學習方法,構建出智能化中成藥綜合評價指標的白盒智能評價模型。通過數據預處理、弱監督學習和智能評價三個階段步驟,搭建具有高度可解釋性的、不過度依賴專家經驗的、符合中成藥特點的人機交互綜合評價指標測量工具。
本文提出的EDCEM-CPM模型,采用C均值聚類算法和模糊C均值聚類算法處理中成藥評價數據,模型計算結果具有可解釋性,同時基于數據驅動的思路,僅使用藥品評價原始數據進行計算,避免了人為因素的干擾,可客觀得出評價結果。中成藥評價數據具有多源異構且高維度的特點,在數據預處理階段進行數據轉化和降維,使數據滿足評價算法對輸入數據的要求。在弱監督學習階段采用兩次聚類算法,先用C均值聚類算法進行粗聚類,再用模糊C均值聚類算法進行精細聚類。其中模糊C均值更加符合實際評價場景,也更加靈活。經過聚類算法得出聚類中心,再根據數據與聚類中心的遠近計算得分權重。整個權重計算過程是可解釋的且由數據驅動,權重的大小只與數據本身相關。待評價的藥品數據經過同樣的預處理步驟之后,輸入模型即可使用計算好的權重計算得分,實現中成藥智能評價。
3 EDCEM-CPM模型計算步驟
3.1 數據預處理
藥品評價數據涉及多個維度,描述方式包括數值描述、等級描述和文字描述。此外,存在部分數據無法收集到或存在缺失值等問題。機器學習模型無法直接處理等級描述和文字描述的數據,需要將原始數據中等級描述和文字描述的數據轉化成數值描述的數據才能進行相關計算。
3.1.1 添加標志位
根據數據指標的實際含義為其添加兩個標志位。其中,第一標志位標識數據是連續型數據還是離散型數據,第二標志位標識數據是正向打分還是反向打分。添加標志位后,根據數據本身的特性可更加靈活進行處理,使評價過程符合客觀事實。
3.1.2 數值轉化
原始數據中存在文字描述和等級描述的數據,在數據預處理階段需要轉換成數值描述數據。例如,用“是、否”描述的數據轉換成用“1、0”描述,用“A、B、C、D”描述的數據轉換成用“1、2、3、4”描述。
3.1.3 缺失值處理
原始數據中存在缺失值需要人工填充。由于數據指標的實際含義有所不同,在進行缺失值填充的時候需要分別處理。根據第二標志位來區分數據是正向打分還是反向打分,對于正向打分的數據缺失值填充為0,對于反向打分的數據缺失值填充為該條數據所有非空數據中的最大值。
3.1.4 數據合并
原始數據中部分數據之間存在關聯性,不能單獨作為一條數據進行計算,需要先進行合并。常用的合并方法有:最大值法、最小值法、平均值法、求和法及閾值法。在實際數據處理中,根據需要采取上述方法中的一種或者多種方法的組合。合并數據可有效降低數據維度,使數據更符合其本質含義,同時簡化計算過程。
3.2 打分權重獲取
計算打分權重是中成藥品種評價模型的關鍵內容,先用多個中成藥品種數據訓練機器學習模型,再根據模型的訓練結果計算打分權重。訓練模型時,根據數據第一標志位的值區分連續型數據和離散型數據,對離散型數據和連續性數據采用不同的方式進行處理。連續性數據采用兩次聚類的方式,先使用C均值聚類算法進行粗聚類,以C均值聚類的結果作為下一步精細聚類的初始化條件。精細聚類采用模糊C均值聚類算法,計算每個樣本對每個聚類中心的隸屬度(即一個樣本屬于一個聚類中心的程度)。基于模糊C均值聚類的結果計算每個聚類中心的得分,作為連續性數據的權重。離散型數據以每個離散值的出現次數占所有數據出現次數總數的比例為基礎,計算每個離散值的得分,作為離散型數據的權重。
3.2.1 連續性數據粗聚類
對于連續性數據的粗聚類,采用C均值聚類算法。C均值聚類算法將數據聚成K類,每個樣本數據只能屬于其中一個類,使損失函數取值最小的聚類中心就是最終的聚類結果。K需要人為指定,本文將K設置為3。C均值聚類算法的損失函數計算公式如下:
![]() |
其中,表示聚類中心,
表示樣本數據,
表示樣本數據
與其所屬的聚類中心
的距離。
3.2.2 連續性數據精細聚類
連續性數據的精細聚類是以C均值聚類的結果為初始化條件,進行模糊C均值聚類。模糊C均值聚類相比于C均值聚類的主要差別在于,模糊C均值聚類不要求一個樣本數據只屬于一個聚類中心,而是通過隸屬度來描述樣本屬于聚類中心的程度,隸屬度越大則樣本數據屬于這個聚類中心的程度就越高。初始化的主要內容是計算初始隸屬度矩陣,具體計算公式如下:
![]() |
![]() |
![]() |
其中,表示樣本數據
與聚類中心
的距離,
表示樣本數據
與所有聚類中心距離的最大值,
表示初始化的樣本數據
對聚類中心
的隸屬度,當樣本數據
與聚類中心
的距離
越小,樣本數據
對聚類中心
的隸屬度
就越大。
計算出初始隸屬度矩陣后,模糊C均值算法通過不斷迭代更新聚類中心和隸屬度矩陣,直到使損失函數取最小值或滿足一定的條件,此時得到的隸屬度矩陣和聚類中心為最終的聚類結果。損失函數和隸屬度矩陣、聚類中心的更新公式如下:
![]() |
![]() |
![]() |
其中,是模糊系數,
表示樣本數據
對聚類中心
的隸屬度,
表示樣本數據
對聚類中心
的距離。
3.2.3 連續數據聚類中心得分計算
聚類中心的得分計算是根據所有樣本對該聚類中心的隸屬度情況來確定,具體可分為兩個步驟:首先,計算所有樣本對每個聚類中心的隸屬度之和占隸屬度總和的比例;其次,根據數據第二標志位區分正向打分和反向打分,再計算具體分數。相關計算公式如下:
![]() |
![]() |
![]() |
其中,表示所有屬于聚類中心
的隸屬度之和與隸屬度總和之比,
和
分別表示正向打分和反向打分,R滿足條件
。對于正向打分的數據,聚類中心的數值越大得分越高;反向打分的數據,聚類中心數值越大得分越低。
3.2.4 離散數據比例計算
對于離散數據,統計每個離散數據的出現次數,再根據每個離散數據的出現次數來計算該離散數據占總體數據個數的比例,計算公式如下:
![]() |
其中,表示樣本數據
出現的次數,
表示樣本數據
的出現次數
占總體數據出現次數的比例。
3.2.5 離散數據得分計算
離散數據的得分是以為基礎進行計算,根據數據第二標志位區分正向打分和反向打分,計算公式如下:
![]() |
![]() |
和
分別表示正向打分和反向打分。對于正向打分的數據,離散數據數值越大得分越高,反向打分的數據,離散數據數值越大得分越低。
3.3 中成藥品種評分計算
中成藥品種評分是構建中成藥品種評價模型的最終目的,一個中成藥品種的得分可反映出其在中成藥品種整體上所處的水平,有助于對中成藥品種做出選擇和評價。對于待評分的中成藥品種數據,需要先經過數據預處理,預處理之后的數據是帶有標志位的向量形式數據。使用打分權重計算出每條數據的具體得分,再結合三級加權求和權重計算出中成藥品種的總分。
3.3.1 數據預處理
針對中成藥品種原始數據非結構化的特點,在進行計算之前需要采取一定的方式將原始數據轉換成可輸入機器學習模型的向量形式。因此需要對數據進行預處理,具體步驟可參考“3.1數據預處理”部分。
3.3.2 計算原始得分
待評分的藥品數據經過數據預處理后,使用打分權重計算每條數據的具體得分,在計算得分時根據數據的性質,計算方法有所不同。
對于連續性數據,其給分規則如下:
![]() |
![]() |
其中,為對應聚類中心
的得分,
表示數值最小的聚類中心,
表示數值最大的聚類中心,
表示樣本數據。
連續性數據對于正向打分的數據數值越大則得分越高,對于反向打分的數據則相反。
對于離散數據,其給分規則如下:
![]() |
其中,為對應離散值
的得分。
在計算離散數據的得分時,只需要返回打分權重中相應的離散值的分數。
3.3.3 計算加權得分
計算加權總分時,通過三級權重,逐級對原始得分數據進行加權。使用三級權重的優勢在于可根據數據的重要程度來調整權重的大小,對于重要指標數據可給予更大的權重,這也可提高藥品評分的準確性。加權得分計算公式如下:
![]() |
![]() |
![]() |
其中,是藥品的原始得分數據,
是三級權重加權之后的藥品得分,
、
是計算的中間結果,
、
、
分別表示三級權重。
經過三級權重加權之后得到的總分,可作為藥品評價的一個參考,這個得分可相對全面地反映藥品在各個方面的表現,以及藥品整體水平的高低。
4 討論
項目組經過系列研究,構建了基于EDCEM-CPM模型的中成藥綜合評價指標測量工具,為實現中醫藥評價領域客觀化評價提供了一種新的思路和方法。EDCEM-CPM模型通過數據預處理、打分權重獲取、藥品評分計算三個步驟對中成藥進行智能評價,能較為客觀地綜合展示出中成藥的多維價值。該模型的評價過程,考慮了中成藥的多層次、多維度特點和屬性,符合中醫藥的特色,且該模型不過度依賴專家經驗,較大程度地避免了人為因素的干擾,評價過程相對科學客觀;另外,該模型在數據預處理階段能夠對數據進行轉化和降維,解決了處理高維度、多源異構、模糊的中成藥評價數據的難題,因此該評價模型值得推廣和應用。但在今后的研究中,我們還需要對該模型進行不斷驗證和優化,使其更具備適用性和應用性,并實現進一步臨床轉化。
藥品臨床綜合評價是評價主體應用多種評價方法和工具開展的多維度、多層次證據的綜合評價,是藥品供應保障決策的重要技術工具[1]。中成藥綜合評價是以中成藥為評價對象,應用合理的研究方法對其臨床價值、衛生經濟學價值等進行多維度綜合評價的研究。近期已發布的“多維度多準則中成藥綜合評價技術指導原則”(以下簡稱“指導原則”)中指出,開展關于中成藥的綜合評價研究工作,應包含評價指標體系的構建和評價指標測量工具兩大部分。關于評價指標體系的構建,近年已有多位學者展開探索,如通過臨床價值、科學價值、市場價值三大要素來衡量中成藥的價值[2],通過臨床定位準確性、比較優勢顯著性、安全可控性、組方合理性、資源可持續性、生產可行性等維度來評估中成藥價值[3],或基于中醫藥特色框架,構建以安全、有效、經濟、應用、科學和標準為評價要點的中成藥綜合評價指標體系等[4]系列探索。而對于評價工具和評價模型的選擇,當前研究尚有不足,部分團隊或未進行說明,或以簡單測算、專家共識等方法進行,而基于專家共識方法對評價指標進行人為賦分、確定權重的評價方式使得藥物評價過程過于依賴專家經驗,導致主觀偏倚過大,進而影響評價結果的客觀性、參照性、可靠性和臨床應用轉化。
“指導原則”中指出中成藥綜合評價指標測量工具應根據中成藥指標數據多源異構、高維度、小樣本、無標簽等特點和中醫藥理論特色中重視專家智慧和經驗等方面綜合考慮后而進行選擇,且應具有評價方法客觀可復制、便于大范圍推廣應用、結果快速易得等特點,并建議借助人工智能技術手段,對中成藥指標數據進行歸一化、降維、標簽處理。因此,為解決中成藥數據維度復雜、評價較難的問題,本文基于機器學習方法構建了基于知識引導和數據驅動的中成藥綜合評價模型(expert-knowledge and data-driven comprehensive evaluation model of Chinese patent medicine,EDCEM-CPM),包括數據清洗、維度的合并處理、聚類算法、數據訓練[5-7]等步驟。本文將對該評價模型的探索性建立過程及相關內容進行解讀,以供相關研究主體更好地參考使用。
1 綜合評價方法現狀分析
綜合評價方法是指根據證據及證據等級確定價值因素的權重大小[8]。目前常見的綜合評價方法有基于咨詢的德爾菲法、基于排序或評價價值的層次分析法[9]以及基于粗糙集理論的多準則決策分析法[10],已用于各類綜合評價研究中[5,7,11-12]。而以上常用綜合評價方法各自有著較為明顯的優勢與不足,如層次分析法具有系統性強、簡單實用的優點,但評價指標或數據量過多時,確定不同指標權重大小的難度較高[13]。德爾菲法具有專業性強,權威性高的特色優勢,但同時存在一定的主觀片面性,受專家團隊的主觀影響較大。多準則決策分析法具有透明度高、能夠提升評價結果的合理性和一致性的優點,但應用較為有限、決策效率較低且工作量較大[13]。
隨著現代信息科技的不斷發展和醫療行業的壯大,信息化診療成為大趨勢,人工智能技術因其客觀智能的計算特點和優勢已逐步應用于醫學領域。侯桂英[14]等利用人工神經網絡和專家系統相結合的方法,建立了針對高血壓診斷的智能醫療診斷系統模型,為輔助臨床醫師對高血壓患者做出快速準確的診斷提供了相關依據。蘇芮等[15]基于外感熱病古代醫案數據,采用適合中醫混合數據集的混合檢索方法,構建出外感熱病中醫病案的案例推理模型,并在此基礎上研發出人工智能臨床輔助決策系統,為中醫古代醫案經驗在臨床上的應用提供了新的有效途徑。許夢白等[16]基于相關文獻資料,采用隨機森林、支持向量分類、k-近鄰、人工神經網絡及統計學注意力神經網絡模型來構建不孕癥辨證模型,為探索不孕癥的辨證方法、不孕癥的中醫證候客觀化提供了研究思路。徐佳君等[17]基于狀態辨識的結果設計出人工智能組方模型,該模型能夠解決推薦處方難以滿足需求的情況。許鴻本等[18]基于知識驅動及知識工程、數據驅動及大數據等人工智能技術要素,構建出中醫診療系統,該系統既充分體現中醫思維,也滿足臨床實際需求。
機器學習算法在中醫領域已有很多應用案例,研究表明,通過使用機器學習算法實現客觀、可解釋、準確的中醫診斷和評價模型是可行的。以上案例為中成藥綜合評價模型的建立提供了很好的參考和借鑒,但需根據中成藥評價數據的特點和評價目的選擇合適的機器學習算法。因此,項目組在現有綜合評價方法的基礎上,根據中成藥綜合評價指標體系所獲取原始數據特點,提出了EDCEM-CPM。
2 EDCEM-CPM模型的提出
中成藥評價數據復雜,表現為連續性、離散型數據,又具有部分數據缺失的復雜的高維數據特征,且具有模糊性等特點。上述綜合評價方法不能完全滿足這類數據的特點和解決以上問題,因此需根據中成藥數據基本特點,構建恰當的評價模型算法。一方面保證評價過程的客觀性,另一方面處理中成藥這類高維度、小樣本、無標簽、模糊的評價數據難題。本研究選用人工智能的弱監督學習方法,構建出智能化中成藥綜合評價指標的白盒智能評價模型。通過數據預處理、弱監督學習和智能評價三個階段步驟,搭建具有高度可解釋性的、不過度依賴專家經驗的、符合中成藥特點的人機交互綜合評價指標測量工具。
本文提出的EDCEM-CPM模型,采用C均值聚類算法和模糊C均值聚類算法處理中成藥評價數據,模型計算結果具有可解釋性,同時基于數據驅動的思路,僅使用藥品評價原始數據進行計算,避免了人為因素的干擾,可客觀得出評價結果。中成藥評價數據具有多源異構且高維度的特點,在數據預處理階段進行數據轉化和降維,使數據滿足評價算法對輸入數據的要求。在弱監督學習階段采用兩次聚類算法,先用C均值聚類算法進行粗聚類,再用模糊C均值聚類算法進行精細聚類。其中模糊C均值更加符合實際評價場景,也更加靈活。經過聚類算法得出聚類中心,再根據數據與聚類中心的遠近計算得分權重。整個權重計算過程是可解釋的且由數據驅動,權重的大小只與數據本身相關。待評價的藥品數據經過同樣的預處理步驟之后,輸入模型即可使用計算好的權重計算得分,實現中成藥智能評價。
3 EDCEM-CPM模型計算步驟
3.1 數據預處理
藥品評價數據涉及多個維度,描述方式包括數值描述、等級描述和文字描述。此外,存在部分數據無法收集到或存在缺失值等問題。機器學習模型無法直接處理等級描述和文字描述的數據,需要將原始數據中等級描述和文字描述的數據轉化成數值描述的數據才能進行相關計算。
3.1.1 添加標志位
根據數據指標的實際含義為其添加兩個標志位。其中,第一標志位標識數據是連續型數據還是離散型數據,第二標志位標識數據是正向打分還是反向打分。添加標志位后,根據數據本身的特性可更加靈活進行處理,使評價過程符合客觀事實。
3.1.2 數值轉化
原始數據中存在文字描述和等級描述的數據,在數據預處理階段需要轉換成數值描述數據。例如,用“是、否”描述的數據轉換成用“1、0”描述,用“A、B、C、D”描述的數據轉換成用“1、2、3、4”描述。
3.1.3 缺失值處理
原始數據中存在缺失值需要人工填充。由于數據指標的實際含義有所不同,在進行缺失值填充的時候需要分別處理。根據第二標志位來區分數據是正向打分還是反向打分,對于正向打分的數據缺失值填充為0,對于反向打分的數據缺失值填充為該條數據所有非空數據中的最大值。
3.1.4 數據合并
原始數據中部分數據之間存在關聯性,不能單獨作為一條數據進行計算,需要先進行合并。常用的合并方法有:最大值法、最小值法、平均值法、求和法及閾值法。在實際數據處理中,根據需要采取上述方法中的一種或者多種方法的組合。合并數據可有效降低數據維度,使數據更符合其本質含義,同時簡化計算過程。
3.2 打分權重獲取
計算打分權重是中成藥品種評價模型的關鍵內容,先用多個中成藥品種數據訓練機器學習模型,再根據模型的訓練結果計算打分權重。訓練模型時,根據數據第一標志位的值區分連續型數據和離散型數據,對離散型數據和連續性數據采用不同的方式進行處理。連續性數據采用兩次聚類的方式,先使用C均值聚類算法進行粗聚類,以C均值聚類的結果作為下一步精細聚類的初始化條件。精細聚類采用模糊C均值聚類算法,計算每個樣本對每個聚類中心的隸屬度(即一個樣本屬于一個聚類中心的程度)。基于模糊C均值聚類的結果計算每個聚類中心的得分,作為連續性數據的權重。離散型數據以每個離散值的出現次數占所有數據出現次數總數的比例為基礎,計算每個離散值的得分,作為離散型數據的權重。
3.2.1 連續性數據粗聚類
對于連續性數據的粗聚類,采用C均值聚類算法。C均值聚類算法將數據聚成K類,每個樣本數據只能屬于其中一個類,使損失函數取值最小的聚類中心就是最終的聚類結果。K需要人為指定,本文將K設置為3。C均值聚類算法的損失函數計算公式如下:
![]() |
其中,表示聚類中心,
表示樣本數據,
表示樣本數據
與其所屬的聚類中心
的距離。
3.2.2 連續性數據精細聚類
連續性數據的精細聚類是以C均值聚類的結果為初始化條件,進行模糊C均值聚類。模糊C均值聚類相比于C均值聚類的主要差別在于,模糊C均值聚類不要求一個樣本數據只屬于一個聚類中心,而是通過隸屬度來描述樣本屬于聚類中心的程度,隸屬度越大則樣本數據屬于這個聚類中心的程度就越高。初始化的主要內容是計算初始隸屬度矩陣,具體計算公式如下:
![]() |
![]() |
![]() |
其中,表示樣本數據
與聚類中心
的距離,
表示樣本數據
與所有聚類中心距離的最大值,
表示初始化的樣本數據
對聚類中心
的隸屬度,當樣本數據
與聚類中心
的距離
越小,樣本數據
對聚類中心
的隸屬度
就越大。
計算出初始隸屬度矩陣后,模糊C均值算法通過不斷迭代更新聚類中心和隸屬度矩陣,直到使損失函數取最小值或滿足一定的條件,此時得到的隸屬度矩陣和聚類中心為最終的聚類結果。損失函數和隸屬度矩陣、聚類中心的更新公式如下:
![]() |
![]() |
![]() |
其中,是模糊系數,
表示樣本數據
對聚類中心
的隸屬度,
表示樣本數據
對聚類中心
的距離。
3.2.3 連續數據聚類中心得分計算
聚類中心的得分計算是根據所有樣本對該聚類中心的隸屬度情況來確定,具體可分為兩個步驟:首先,計算所有樣本對每個聚類中心的隸屬度之和占隸屬度總和的比例;其次,根據數據第二標志位區分正向打分和反向打分,再計算具體分數。相關計算公式如下:
![]() |
![]() |
![]() |
其中,表示所有屬于聚類中心
的隸屬度之和與隸屬度總和之比,
和
分別表示正向打分和反向打分,R滿足條件
。對于正向打分的數據,聚類中心的數值越大得分越高;反向打分的數據,聚類中心數值越大得分越低。
3.2.4 離散數據比例計算
對于離散數據,統計每個離散數據的出現次數,再根據每個離散數據的出現次數來計算該離散數據占總體數據個數的比例,計算公式如下:
![]() |
其中,表示樣本數據
出現的次數,
表示樣本數據
的出現次數
占總體數據出現次數的比例。
3.2.5 離散數據得分計算
離散數據的得分是以為基礎進行計算,根據數據第二標志位區分正向打分和反向打分,計算公式如下:
![]() |
![]() |
和
分別表示正向打分和反向打分。對于正向打分的數據,離散數據數值越大得分越高,反向打分的數據,離散數據數值越大得分越低。
3.3 中成藥品種評分計算
中成藥品種評分是構建中成藥品種評價模型的最終目的,一個中成藥品種的得分可反映出其在中成藥品種整體上所處的水平,有助于對中成藥品種做出選擇和評價。對于待評分的中成藥品種數據,需要先經過數據預處理,預處理之后的數據是帶有標志位的向量形式數據。使用打分權重計算出每條數據的具體得分,再結合三級加權求和權重計算出中成藥品種的總分。
3.3.1 數據預處理
針對中成藥品種原始數據非結構化的特點,在進行計算之前需要采取一定的方式將原始數據轉換成可輸入機器學習模型的向量形式。因此需要對數據進行預處理,具體步驟可參考“3.1數據預處理”部分。
3.3.2 計算原始得分
待評分的藥品數據經過數據預處理后,使用打分權重計算每條數據的具體得分,在計算得分時根據數據的性質,計算方法有所不同。
對于連續性數據,其給分規則如下:
![]() |
![]() |
其中,為對應聚類中心
的得分,
表示數值最小的聚類中心,
表示數值最大的聚類中心,
表示樣本數據。
連續性數據對于正向打分的數據數值越大則得分越高,對于反向打分的數據則相反。
對于離散數據,其給分規則如下:
![]() |
其中,為對應離散值
的得分。
在計算離散數據的得分時,只需要返回打分權重中相應的離散值的分數。
3.3.3 計算加權得分
計算加權總分時,通過三級權重,逐級對原始得分數據進行加權。使用三級權重的優勢在于可根據數據的重要程度來調整權重的大小,對于重要指標數據可給予更大的權重,這也可提高藥品評分的準確性。加權得分計算公式如下:
![]() |
![]() |
![]() |
其中,是藥品的原始得分數據,
是三級權重加權之后的藥品得分,
、
是計算的中間結果,
、
、
分別表示三級權重。
經過三級權重加權之后得到的總分,可作為藥品評價的一個參考,這個得分可相對全面地反映藥品在各個方面的表現,以及藥品整體水平的高低。
4 討論
項目組經過系列研究,構建了基于EDCEM-CPM模型的中成藥綜合評價指標測量工具,為實現中醫藥評價領域客觀化評價提供了一種新的思路和方法。EDCEM-CPM模型通過數據預處理、打分權重獲取、藥品評分計算三個步驟對中成藥進行智能評價,能較為客觀地綜合展示出中成藥的多維價值。該模型的評價過程,考慮了中成藥的多層次、多維度特點和屬性,符合中醫藥的特色,且該模型不過度依賴專家經驗,較大程度地避免了人為因素的干擾,評價過程相對科學客觀;另外,該模型在數據預處理階段能夠對數據進行轉化和降維,解決了處理高維度、多源異構、模糊的中成藥評價數據的難題,因此該評價模型值得推廣和應用。但在今后的研究中,我們還需要對該模型進行不斷驗證和優化,使其更具備適用性和應用性,并實現進一步臨床轉化。