對中文電子病歷中的否定術語進行檢測, 可以為非結構化的電子病歷文本的概念索引的建立提供依據。對于電子病歷中術語的提取, 在經典的正向最大匹配算法的基礎上, 結合互信息, 可以有效地避免覆蓋性歧義對提取結果的影響; 對于否定語義的確定, 在基于規則算法的基礎上, 結合詞共現率模型, 有效地降低了由于標點錄入錯誤而出現假陽性術語的概率。通過實驗表明, 本文提出的方法相對于傳統的基于規則的算法, 陰性結果的預測值提高了6.85%。
門診專家信息可以為需要就診的居民提供一定的參考, 通常這類信息分布于各個醫院的門戶網站, 而且大多數需要通過查詢才能獲取。為了自動抽取醫院門戶網站的門診專家信息, 首先要解決查詢接口判別的問題。針對此問題, 根據查詢接口的屬性特征, 構建了一種樹狀結構的領域模型, 用于對查詢接口進行分類判別, 并進行領域關鍵詞的填寫。其次, 對于返回的網頁, 需要進行噪聲過濾, 本文針對此問題, 提出了分塊重要度模型。實驗結果表明, 基于領域模型的查詢接口判別方法比基于規則方法的準確率提高了10.83%, 分塊重要度模型的F1值比XPath方法提高了10.5%。