在線孟德爾人類遺傳數據庫(OMIM)是描述人類遺傳病及其相關基因的知識庫,其詞條包括疾病的臨床特征、基因連鎖分析、染色體定位以及動物模型等,是研究疾病與基因關系的重要依據。疾病表型的相似性可能提示分子之間的相互作用。進行表型比對將有助于預測疾病候選基因以及分析分子之間的關系。OMIM數據庫采用文本描述疾病表型,并不適用于計算機分析。對OMIM數據進行標準化對于大規模比對和分析疾病的表型數據、建立表型與基因的對應關系具有重要的意義。研究者近期通過引入標準的醫學語言系統,采用文本挖掘中的詞頻-逆文檔頻率技術以及用于文檔分類的余弦定理方法,結合基因本體論及其比對方法,推動了OMIM數據挖掘的快速發展。本文總結了近年來OMIM數據標準化、表型相似性度量及數據挖掘研究的主要成果,并對其發展趨勢進行了預測。
肺區分割是計算機輔助診斷肺癌的前提。當腫塊與胸壁粘連時,由于兩者的計算機斷層成像(CT)值接近,基于局部低級特征的傳統分割方法不能得到正確結果;而且由于腫塊體積大,造成了肺區內正常組織的大面積缺失,故以往含胸壁粘連型肺結節(直徑小于3 cm)的肺區分割方法不再適用,需要采用能結合先驗形狀和低級特征的主動形狀模型(ASM)來分割含胸壁粘連型肺腫塊的肺區。但傳統ASM的搜索步驟是一種基于最小二乘的優化方法,該方法對異常標記點敏感,會使輪廓更新到正常肺組織和腫塊的過渡區域而不是真正的肺邊緣。針對這一問題,提出了改進的ASM算法:首先基于距離特征識別異常標記點,然后賦予異常標記點和正常標記點不同的搜索函數。搜索過程在設定的包圍核(VOI)內進行。用所提出的ASM方法分割30個含胸壁粘連型腫塊的肺區,與金標準的重疊度為93.6%。實驗結果表明針對含胸壁粘連型腫塊的肺區分割問題,改進的ASM算法能得到較好的分割結果,并且算法的運行時間是在臨床可接受的范圍內。
醫學文獻含有豐富的有價值的醫學知識。目前,在醫學文獻上的實體關系提取研究已經得到了很大的進步,但是隨著醫學文獻數量以指數形式增加,醫學文本的標注工作成為一個很大的問題。為解決人工標注耗時長、工作量大的問題,研究者提出了遠程監督標注的方法,但這種方法會引入大量噪聲。本文提出了一種基于卷積神經網絡的新型神經網絡結構,可以解決大量噪聲問題。該模型可以利用多窗口卷積神經網絡自動提取句子特征,在得到句子向量后,通過注意力機制選擇對真實關系有效的句子。特別地,提出實體類型(ET)嵌入方法,通過加入實體類型特征用于關系分類。我們針對訓練文本存在不可避免的標注錯誤問題,提出句子級別的注意力機制用于關系提取。使用 968 份糖尿病醫學文獻進行實驗,結果表明,與基線模型相比,本文模型在醫學文獻中得到了較好的效果,F1 分數達到 93.15%。最后,我們將提取的 11 類關系以三元組的形式存儲,并利用這些三元組制成具有 33 347 個節點、43 686 條關系邊的復雜關系醫學知識圖譜。實驗結果證明,本文所使用的算法明顯優于用于關系提取的最佳基準系統。
雙能計算機斷層成像(CT)技術是 CT 成像領域未來重要的發展方向。雙能 CT 重建算法主流的模型是基物質分解模型,算法的核心關鍵是求出基物質分解系數投影值。基于投影匹配的雙能 CT 投影分解算法通過建立能譜查找表,使用最小二乘法進行匹配查找得到分解系數投影值。但該方法由于查找表數據龐大,計算時間長,不利于臨床的應用。本文在該方法的基礎上,提出一種通過直線方程擬合和平面方程擬合查找表數據,快速計算分解系數投影值的改進算法。仿真實驗證明,該算法在大幅提高計算速度的同時,也能穩定地收斂到正確的解。