門診專家信息可以為需要就診的居民提供一定的參考, 通常這類信息分布于各個醫院的門戶網站, 而且大多數需要通過查詢才能獲取。為了自動抽取醫院門戶網站的門診專家信息, 首先要解決查詢接口判別的問題。針對此問題, 根據查詢接口的屬性特征, 構建了一種樹狀結構的領域模型, 用于對查詢接口進行分類判別, 并進行領域關鍵詞的填寫。其次, 對于返回的網頁, 需要進行噪聲過濾, 本文針對此問題, 提出了分塊重要度模型。實驗結果表明, 基于領域模型的查詢接口判別方法比基于規則方法的準確率提高了10.83%, 分塊重要度模型的F1值比XPath方法提高了10.5%。