在線孟德爾人類遺傳數據庫(OMIM)是描述人類遺傳病及其相關基因的知識庫,其詞條包括疾病的臨床特征、基因連鎖分析、染色體定位以及動物模型等,是研究疾病與基因關系的重要依據。疾病表型的相似性可能提示分子之間的相互作用。進行表型比對將有助于預測疾病候選基因以及分析分子之間的關系。OMIM數據庫采用文本描述疾病表型,并不適用于計算機分析。對OMIM數據進行標準化對于大規模比對和分析疾病的表型數據、建立表型與基因的對應關系具有重要的意義。研究者近期通過引入標準的醫學語言系統,采用文本挖掘中的詞頻-逆文檔頻率技術以及用于文檔分類的余弦定理方法,結合基因本體論及其比對方法,推動了OMIM數據挖掘的快速發展。本文總結了近年來OMIM數據標準化、表型相似性度量及數據挖掘研究的主要成果,并對其發展趨勢進行了預測。
為快速了解新型冠狀病毒肺炎診斷和治療方法的演化情況及其規律,為醫務人員在實際診療中提供便利,本文以 2020-01-16 至 2020-08-19 期間國家衛生健康委員會相繼發布的 9 版新型冠狀病毒肺炎診療方案文本為研究數據,借助文本挖掘相關方法對新型冠狀病毒肺炎診療方案整體及相同模塊進行表示及相似度度量,并對其進行對比性分析與可視化分析,得到不同版本診療方案整體及相應模塊的文本相似度,歸納總結其演化規律,為臨床診療實踐及其他診療方案的制定提供參考。