在線孟德爾人類遺傳數據庫(OMIM)是描述人類遺傳病及其相關基因的知識庫,其詞條包括疾病的臨床特征、基因連鎖分析、染色體定位以及動物模型等,是研究疾病與基因關系的重要依據。疾病表型的相似性可能提示分子之間的相互作用。進行表型比對將有助于預測疾病候選基因以及分析分子之間的關系。OMIM數據庫采用文本描述疾病表型,并不適用于計算機分析。對OMIM數據進行標準化對于大規模比對和分析疾病的表型數據、建立表型與基因的對應關系具有重要的意義。研究者近期通過引入標準的醫學語言系統,采用文本挖掘中的詞頻-逆文檔頻率技術以及用于文檔分類的余弦定理方法,結合基因本體論及其比對方法,推動了OMIM數據挖掘的快速發展。本文總結了近年來OMIM數據標準化、表型相似性度量及數據挖掘研究的主要成果,并對其發展趨勢進行了預測。
引用本文: 李建華, 李哲人, 康雁, 李嶺. 在線孟德爾人類遺傳數據庫數據挖掘的研究進展. 生物醫學工程學雜志, 2014, 31(6): 1400-1404. doi: 10.7507/1001-5515.20140265 復制
引言
在線人類孟德爾遺傳(Online Mendelian Inheritance in Man,OMIM)[1]是一個描述人類遺傳病及其基因研究的知識庫。1966年,該數據庫被首次公布。自1995年起,美國國家生物技術信息中心(National Center for Biotechnology Information,NCBI)在因特網上發布OMIM,由約翰霍普金斯大學負責數據收集、整理、編輯和校對,并隨時更新。OMIM中的大多數詞條均包含臨床概要(clinical synopsis,CS),用以描述疾病的癥狀和體征[即表型 (phenotype)]。臨床概要采用結構化文本描述,又分為類型、亞類和特征三部分。類型主要基于器官系統和臨床發現進行劃分,亞類則是對類型的細分,如呼吸系統的亞類包括喉、氣管、肺等。因此,聲帶麻痹的結構化描述為:呼吸系統 | 喉 | 聲帶麻痹。OMIM詞條還包括相關基因的連鎖分析、染色體定位及動物模型等信息,并附有參考文獻。OMIM數據庫支持在線檢索,具有全面、準確和及時的特點,已成為研究疾病與基因關系的權威信息來源。對于OMIM數據的挖掘最早是人工的。隨著文本挖掘技術逐漸成熟,OMIM數據的挖掘取得了快速發展。以下我們將對這方面的研究成果進行回顧。
1 OMIM數據挖掘的內容與意義
迄今為止,OMIM數據挖掘的主要內容為疾病表型與基因的關聯。由于大多數疾病均為多個基因共同作用的結果,通過分子實驗來確定致病基因費力而耗時,而新興的生物信息挖掘技術則可以在實驗前篩選候選基因。在OMIM數據挖掘中,這可以通過疾病表型相似性比較來實現。
基因-表型之間的對應關系是分子生物學研究的核心問題。傳統的研究聚焦于基因及蛋白質數據(字符串)的相似性。著名的BLAST、CLUSTAL等均為這方面的成熟算法。通過局部相似性比較,可以找出DNA或氨基酸序列相似的分子,而這種相似性又可能提示共同的進化起源以及/或功能的相似性。
對于OMIM所收錄的疾病表型數據進行比對分析具有重要的意義。表型的相似性可能提示不同的疾病所共有的分子基礎。對于分子基礎尚不明確的疾病,則有助于預測其候選基因。利用表型相似性所預測的基因與蛋白質功能之間的關系,可以指導設計分子實驗。此外,對于表型相似的疾病,還可以探索使用相同或相似的藥物進行治療。
對OMIM數據進行挖掘的主要方法包括:① 對疾病表型進行標準化;② 對標準化的數據進行相似性比較;③ 結合基因及蛋白質數據庫篩選候選基因。其中前兩步難度較大,在很大程度上可影響最后的預測結果。
2 數據標準化
在確定候選基因時,需要借助已知的表型與基因的關聯,通過表型比對預測疾病的候選基因。因此,對表型進行標準化是OMIM挖掘首先需要解決的問題。
OMIM數據為手工錄入的自由文本,存在單/復數、同義詞、否定詞及誤輸入等問題。在進行挖掘時,研究者主要采用3種方法將描述表型的詞匯(搜索的關鍵詞)映射為標準詞表,這些包括醫學主題詞(Medical Subject Headings,MeSH)[2]、統一醫學語言系統(Unified Medical Language System,UMLS)[3]和人類表型本體論(Human Phenotype Ontology,HPO)[4]。HPO是人類疾病表型異常的標準化詞匯表,最初僅采用OMIM的詞匯,最近亦開始納入來自醫學文獻的信息,其中包括大約10 000個詞項。HPO是手工創建的表型詞匯,其結構特點為有向無環圖。需要指出的是,MeSH和UMLS索引詞并非專用于人類遺傳病及其表型的描述,而HPO的優勢之一則是其詞項和結構均基于醫學知識而非文本挖掘系統。
在上述三種方法中,MeSH和UMLS被采用較多,而HPO尚處于發展時期。MeSH的不足是并未包含OMIM中的全部表型。Beck等[5]將MeSH中的疾病與HPO中的癥狀和體征相結合,以推斷疾病表型異常。UMLS在通過MetaMap Transfer工具進行轉換時可能產生一定數量的錯誤。Cohen等[6]在改進的UMLS方法基礎上,發現UMLS挖掘的表型數量為HPO方法的3倍。Oellrich等[7-8]提出將HPO與哺乳動物表型本體論(Mammalian Phenotype Ontology,MPO)進行語義相似性比較,改進疾病基因預測。最近已出現針對特定系統的HPO研究,如骨骼系統[9]、神經系統[10]等。
3 表型相似性的度量
被標準化之后,每種疾病就可以表示為標準詞匯構成的集合或特征向量[2]。例如,用2010年10月公布的MeSH詞表對疾病表型標準化,取其中解剖學和疾病癥狀部分的詞匯共13 721個,然后在各OMIM記錄逐一搜索是否存在上述詞匯。每種疾病可表示為一個不超過13 721個標準詞匯構成的集合。若標準詞匯出現置1,不出現置0,每種疾病則將對應一個具有13 721維的特征向量。常用于衡量表型相似性的方法大致分為3種。在對OMIM進行文本挖掘時,余弦相似度使用最為廣泛。而在表型結構化后,Jaccard系數法較容易計算,應用也較多。許多研究者已將基因本體論(Gene Ontology,GO)的比對方法引入疾病表型比較。
3.1 夾角余弦法[2 ]
在OMIM挖掘中,兩種疾病的表型相似性可通過特征向量對之間的夾角余弦值來度量。一般采用文本挖掘中的詞頻-逆文檔頻率(term frequency-inverse document frequency,TF-IDF)技術修正特征向量。兩種疾病x和y的表型相似性Sim(x,y)計算如下:
$Sim\left( x,y \right)=\frac{\sum\limits_{i=1}^{l}{{{x}_{i}}{{y}_{i}}}}{\sqrt{\sum\limits_{i=1}^{l}{{{x}_{i}}^{2}}}~\sqrt{\sum\limits_{i=1}^{l}{{{y}_{i}}^{2}}}}$ |
3.2 Jaccard系數法
計算兩種表型的交集與并集相比,取值范圍為0~1。Hwang等[11]采用HPO來表示表型,疾病P1和P2的表型相似度計算如下:
$Si{{m}_{HPO}}=\frac{\left| {{P}_{1}}\cap {{P}_{2}} \right|}{\left| {{P}_{1}}\cup {{P}_{2}} \right|}$ |
對于表型的重要性還可以進行加權處理,稱為加權Jaccard系數法(weighted Jaccard index)[12],其中P、R是兩種疾病,Cl(P)=P1,…,Pn和Cl(R)=R1,…,Rm是疾病P和R的本體論描述,IC(x)和IC(y)是表型x和y的信息內容。IC(t)定義如下:
$IC\left( t \right)=-log~P\left( t \right),$ |
P和R的相似性計算方法如下:
$Sim\left( P,R \right)=\frac{\sum\limits_{x\in Cl\left( P \right)\cap Cl\left( R \right)}{IC\left( x \right)}}{\sum\limits_{x\in Cl\left( P \right)\cap Cl\left( R \right)}{IC\left( y \right)}}$ |
3.3 GO相似性比較方法
GO與HPO均為具有多層結構的有向無環圖。對于本體論的語義相似性計算亦適用于GO和HPO。在計算語義相似性時,需考慮祖先結點對于子結點相似度的影響。HPO的創建者Robinson等(2008年)利用以下的公式計算兩個詞項t1、t2之間的相似性:
$Sim({{t}_{1}},{{t}_{2}})=\underset{a\in A({{t}_{1}},{{t}_{2}})}{\mathop{max}}\,-log~p\left( a \right),$ |
其中A(t1,t2)是t1,t2的共同祖先集合。疾病d1對d2的表型相似性為:
$Sim({{d}_{1}}\to {{d}_{2}})=avg\left[ \sum\limits_{s\in {{d}_{1}}}{\underset{t\in {{d}_{2}}}{\mathop{max}}\,}~~Sim\left( s,t \right) \right]$ |
由于上式具有非對稱性,疾病d1與d2的表型相似性被定義為:
$Sim({{d}_{1}},{{d}_{2}})=\frac{Sim({{d}_{1}}\to {{d}_{2}})+Sim({{d}_{2}}\to {{d}_{1}})}{2}$ |
最近,Zhang等[13]將GO中語義相似性的比較方法用于HPO,分析并評估了5種方法的有效性。例如,Lin度量方法定義為:
$Si{{m}_{Lin}}({{c}_{1}},{{c}_{2}})=\frac{2Share({{c}_{1}},{{c}_{2}})}{IC({{c}_{1}})+IC({{c}_{2}})},$ |
其中c1和c2為HPO詞項,Share(c1,c2)=max{IC(c)},c是c1和c2信息量最大的共同祖先結點。
鑒于OMIM的表型數據所具有的樹形結構,在進行比對時可從樹根出發(以找出整體相似性),也可從樹葉出發(以找出局部相似性),或者在樹形結構中找出一致的子樹來。在衡量樹形結構的整體和局部相似性時,需要考慮改進或提出新的度量方法。
4 階段性成果
近年來,已有多個小組開發出OMIM的挖掘技術并取得了一些階段性的成果。
在挖掘技術方面,van Driel等[2]率先提出利用MeSH詞表將疾病表型統一化,并采用夾角余弦法來比較不同表型的特征向量,建立了5 000余種疾病的相似矩陣,這為隨后的OMIM挖掘奠基了基礎。Robinson等[4]提出了基于OMIM的HPO,并嘗試對OMIM數據進行標準化。Oti等[14]則討論了人類表型數據庫的生物學一致性,并通過研究不同表型數據庫,提出引入Possum數據并利用Orphanet中的特征頻度,將OMIM數據高質量地轉化為統一的HPO數據。Cohen等[6]利用改進的UMLS映射方法實現了表型聚類及否定詞探測,建立了幫助臨床診斷的增強型OMIM臨床癥狀查詢系統CSI-OMIM。
在研究方面,van Driel等計算了5 000余種疾病表型的相似性矩陣,證明了單基因突變導致的不同的表型具有相當的重疊,并發現隨著疾病表型相似值的增加,其共同的基因序列、蛋白質基序、功能注釋及已知蛋白質相互作用亦增加。Gefen等[15]集成了OMIM和其他生物醫學數據庫,用于預測疾病的候選基因并將其按重要性排序。通過對30種新發現的疾病的測試,證實其致病基因全部出現在預測范圍的前20%,大多數出現在前10%。這一成果可以簡化識別遺傳位點所需的繁冗測試。Pathak等[16]針對美國人常見的6種慢性疾病,利用SPARQL查詢OMIM及dbSNP數據庫,提取疾病-基因-SNP的關系,并通過GeneWiki+進行驗證,展示了語義Web技術在多個生物醫學數據庫協同應用的潛力。Zhang等[3]則利用van Driel等提出的方法構建出疾病的表型網絡,建立了表型聚類與基因模塊間的關聯,有助于理解相似疾病共同的病理生理學基礎。王志剛等[17]基于上述方法建立了疾病表型相似性矩陣,用于發現與疾病關聯最多的分子通路,可能用于藥物研發和疾病治療。Chen等[18]通過OMIM疾病表型相似網絡,預測了疾病與疾病發生、發展密切相關的MicroRNAs。

表 1總結了迄今為止OMIM數據挖掘的主要成果以及相關的在線軟件。
5 總結與展望
對OMIM所總結的疾病表型進行挖掘,對于發現致病基因、闡明分子網絡具有重要的意義。然而,目前尚無理想的工具對各種挖掘方法進行系統評估,對于OMIM的挖掘仍存在以下問題:
(1)需要提高表型描述的規范化程度。OMIM數據的分類依據仍未統一,存在解剖學、生理學以及胚胎發育學概念混用的局面。將OMIM數據轉化為MeSH、UMLS或HPO詞匯存在一定的困難。對HPO不斷進行完善,建成基于HPO的OMIM表型錄入標準化,將從數據源頭上實現規范化。
(2)需要構建表型本體論-疾病本體論(Disease Ontology)-基因本體論之間的關聯。建立一個人類癥狀-疾病-基因的內部關聯數據庫,將有助于系統地揭示疾病與基因的關聯。
(3)需要從更高的層次描述人類表型相似性與候選基因之間的定性和定量關系。為了更精確地衡量表型的相似性,需要根據實際需要進行不同程度的抽象。這也將有助于理解表型在何種相似度下可揭示基因的共同屬性。
(4)實現OMIM數據與基因、蛋白質等多種數據庫聯合及跨物種比較,實現大規模多源異構數據的有效融合,以揭示表型與基因型之間的關聯。
引言
在線人類孟德爾遺傳(Online Mendelian Inheritance in Man,OMIM)[1]是一個描述人類遺傳病及其基因研究的知識庫。1966年,該數據庫被首次公布。自1995年起,美國國家生物技術信息中心(National Center for Biotechnology Information,NCBI)在因特網上發布OMIM,由約翰霍普金斯大學負責數據收集、整理、編輯和校對,并隨時更新。OMIM中的大多數詞條均包含臨床概要(clinical synopsis,CS),用以描述疾病的癥狀和體征[即表型 (phenotype)]。臨床概要采用結構化文本描述,又分為類型、亞類和特征三部分。類型主要基于器官系統和臨床發現進行劃分,亞類則是對類型的細分,如呼吸系統的亞類包括喉、氣管、肺等。因此,聲帶麻痹的結構化描述為:呼吸系統 | 喉 | 聲帶麻痹。OMIM詞條還包括相關基因的連鎖分析、染色體定位及動物模型等信息,并附有參考文獻。OMIM數據庫支持在線檢索,具有全面、準確和及時的特點,已成為研究疾病與基因關系的權威信息來源。對于OMIM數據的挖掘最早是人工的。隨著文本挖掘技術逐漸成熟,OMIM數據的挖掘取得了快速發展。以下我們將對這方面的研究成果進行回顧。
1 OMIM數據挖掘的內容與意義
迄今為止,OMIM數據挖掘的主要內容為疾病表型與基因的關聯。由于大多數疾病均為多個基因共同作用的結果,通過分子實驗來確定致病基因費力而耗時,而新興的生物信息挖掘技術則可以在實驗前篩選候選基因。在OMIM數據挖掘中,這可以通過疾病表型相似性比較來實現。
基因-表型之間的對應關系是分子生物學研究的核心問題。傳統的研究聚焦于基因及蛋白質數據(字符串)的相似性。著名的BLAST、CLUSTAL等均為這方面的成熟算法。通過局部相似性比較,可以找出DNA或氨基酸序列相似的分子,而這種相似性又可能提示共同的進化起源以及/或功能的相似性。
對于OMIM所收錄的疾病表型數據進行比對分析具有重要的意義。表型的相似性可能提示不同的疾病所共有的分子基礎。對于分子基礎尚不明確的疾病,則有助于預測其候選基因。利用表型相似性所預測的基因與蛋白質功能之間的關系,可以指導設計分子實驗。此外,對于表型相似的疾病,還可以探索使用相同或相似的藥物進行治療。
對OMIM數據進行挖掘的主要方法包括:① 對疾病表型進行標準化;② 對標準化的數據進行相似性比較;③ 結合基因及蛋白質數據庫篩選候選基因。其中前兩步難度較大,在很大程度上可影響最后的預測結果。
2 數據標準化
在確定候選基因時,需要借助已知的表型與基因的關聯,通過表型比對預測疾病的候選基因。因此,對表型進行標準化是OMIM挖掘首先需要解決的問題。
OMIM數據為手工錄入的自由文本,存在單/復數、同義詞、否定詞及誤輸入等問題。在進行挖掘時,研究者主要采用3種方法將描述表型的詞匯(搜索的關鍵詞)映射為標準詞表,這些包括醫學主題詞(Medical Subject Headings,MeSH)[2]、統一醫學語言系統(Unified Medical Language System,UMLS)[3]和人類表型本體論(Human Phenotype Ontology,HPO)[4]。HPO是人類疾病表型異常的標準化詞匯表,最初僅采用OMIM的詞匯,最近亦開始納入來自醫學文獻的信息,其中包括大約10 000個詞項。HPO是手工創建的表型詞匯,其結構特點為有向無環圖。需要指出的是,MeSH和UMLS索引詞并非專用于人類遺傳病及其表型的描述,而HPO的優勢之一則是其詞項和結構均基于醫學知識而非文本挖掘系統。
在上述三種方法中,MeSH和UMLS被采用較多,而HPO尚處于發展時期。MeSH的不足是并未包含OMIM中的全部表型。Beck等[5]將MeSH中的疾病與HPO中的癥狀和體征相結合,以推斷疾病表型異常。UMLS在通過MetaMap Transfer工具進行轉換時可能產生一定數量的錯誤。Cohen等[6]在改進的UMLS方法基礎上,發現UMLS挖掘的表型數量為HPO方法的3倍。Oellrich等[7-8]提出將HPO與哺乳動物表型本體論(Mammalian Phenotype Ontology,MPO)進行語義相似性比較,改進疾病基因預測。最近已出現針對特定系統的HPO研究,如骨骼系統[9]、神經系統[10]等。
3 表型相似性的度量
被標準化之后,每種疾病就可以表示為標準詞匯構成的集合或特征向量[2]。例如,用2010年10月公布的MeSH詞表對疾病表型標準化,取其中解剖學和疾病癥狀部分的詞匯共13 721個,然后在各OMIM記錄逐一搜索是否存在上述詞匯。每種疾病可表示為一個不超過13 721個標準詞匯構成的集合。若標準詞匯出現置1,不出現置0,每種疾病則將對應一個具有13 721維的特征向量。常用于衡量表型相似性的方法大致分為3種。在對OMIM進行文本挖掘時,余弦相似度使用最為廣泛。而在表型結構化后,Jaccard系數法較容易計算,應用也較多。許多研究者已將基因本體論(Gene Ontology,GO)的比對方法引入疾病表型比較。
3.1 夾角余弦法[2 ]
在OMIM挖掘中,兩種疾病的表型相似性可通過特征向量對之間的夾角余弦值來度量。一般采用文本挖掘中的詞頻-逆文檔頻率(term frequency-inverse document frequency,TF-IDF)技術修正特征向量。兩種疾病x和y的表型相似性Sim(x,y)計算如下:
$Sim\left( x,y \right)=\frac{\sum\limits_{i=1}^{l}{{{x}_{i}}{{y}_{i}}}}{\sqrt{\sum\limits_{i=1}^{l}{{{x}_{i}}^{2}}}~\sqrt{\sum\limits_{i=1}^{l}{{{y}_{i}}^{2}}}}$ |
3.2 Jaccard系數法
計算兩種表型的交集與并集相比,取值范圍為0~1。Hwang等[11]采用HPO來表示表型,疾病P1和P2的表型相似度計算如下:
$Si{{m}_{HPO}}=\frac{\left| {{P}_{1}}\cap {{P}_{2}} \right|}{\left| {{P}_{1}}\cup {{P}_{2}} \right|}$ |
對于表型的重要性還可以進行加權處理,稱為加權Jaccard系數法(weighted Jaccard index)[12],其中P、R是兩種疾病,Cl(P)=P1,…,Pn和Cl(R)=R1,…,Rm是疾病P和R的本體論描述,IC(x)和IC(y)是表型x和y的信息內容。IC(t)定義如下:
$IC\left( t \right)=-log~P\left( t \right),$ |
P和R的相似性計算方法如下:
$Sim\left( P,R \right)=\frac{\sum\limits_{x\in Cl\left( P \right)\cap Cl\left( R \right)}{IC\left( x \right)}}{\sum\limits_{x\in Cl\left( P \right)\cap Cl\left( R \right)}{IC\left( y \right)}}$ |
3.3 GO相似性比較方法
GO與HPO均為具有多層結構的有向無環圖。對于本體論的語義相似性計算亦適用于GO和HPO。在計算語義相似性時,需考慮祖先結點對于子結點相似度的影響。HPO的創建者Robinson等(2008年)利用以下的公式計算兩個詞項t1、t2之間的相似性:
$Sim({{t}_{1}},{{t}_{2}})=\underset{a\in A({{t}_{1}},{{t}_{2}})}{\mathop{max}}\,-log~p\left( a \right),$ |
其中A(t1,t2)是t1,t2的共同祖先集合。疾病d1對d2的表型相似性為:
$Sim({{d}_{1}}\to {{d}_{2}})=avg\left[ \sum\limits_{s\in {{d}_{1}}}{\underset{t\in {{d}_{2}}}{\mathop{max}}\,}~~Sim\left( s,t \right) \right]$ |
由于上式具有非對稱性,疾病d1與d2的表型相似性被定義為:
$Sim({{d}_{1}},{{d}_{2}})=\frac{Sim({{d}_{1}}\to {{d}_{2}})+Sim({{d}_{2}}\to {{d}_{1}})}{2}$ |
最近,Zhang等[13]將GO中語義相似性的比較方法用于HPO,分析并評估了5種方法的有效性。例如,Lin度量方法定義為:
$Si{{m}_{Lin}}({{c}_{1}},{{c}_{2}})=\frac{2Share({{c}_{1}},{{c}_{2}})}{IC({{c}_{1}})+IC({{c}_{2}})},$ |
其中c1和c2為HPO詞項,Share(c1,c2)=max{IC(c)},c是c1和c2信息量最大的共同祖先結點。
鑒于OMIM的表型數據所具有的樹形結構,在進行比對時可從樹根出發(以找出整體相似性),也可從樹葉出發(以找出局部相似性),或者在樹形結構中找出一致的子樹來。在衡量樹形結構的整體和局部相似性時,需要考慮改進或提出新的度量方法。
4 階段性成果
近年來,已有多個小組開發出OMIM的挖掘技術并取得了一些階段性的成果。
在挖掘技術方面,van Driel等[2]率先提出利用MeSH詞表將疾病表型統一化,并采用夾角余弦法來比較不同表型的特征向量,建立了5 000余種疾病的相似矩陣,這為隨后的OMIM挖掘奠基了基礎。Robinson等[4]提出了基于OMIM的HPO,并嘗試對OMIM數據進行標準化。Oti等[14]則討論了人類表型數據庫的生物學一致性,并通過研究不同表型數據庫,提出引入Possum數據并利用Orphanet中的特征頻度,將OMIM數據高質量地轉化為統一的HPO數據。Cohen等[6]利用改進的UMLS映射方法實現了表型聚類及否定詞探測,建立了幫助臨床診斷的增強型OMIM臨床癥狀查詢系統CSI-OMIM。
在研究方面,van Driel等計算了5 000余種疾病表型的相似性矩陣,證明了單基因突變導致的不同的表型具有相當的重疊,并發現隨著疾病表型相似值的增加,其共同的基因序列、蛋白質基序、功能注釋及已知蛋白質相互作用亦增加。Gefen等[15]集成了OMIM和其他生物醫學數據庫,用于預測疾病的候選基因并將其按重要性排序。通過對30種新發現的疾病的測試,證實其致病基因全部出現在預測范圍的前20%,大多數出現在前10%。這一成果可以簡化識別遺傳位點所需的繁冗測試。Pathak等[16]針對美國人常見的6種慢性疾病,利用SPARQL查詢OMIM及dbSNP數據庫,提取疾病-基因-SNP的關系,并通過GeneWiki+進行驗證,展示了語義Web技術在多個生物醫學數據庫協同應用的潛力。Zhang等[3]則利用van Driel等提出的方法構建出疾病的表型網絡,建立了表型聚類與基因模塊間的關聯,有助于理解相似疾病共同的病理生理學基礎。王志剛等[17]基于上述方法建立了疾病表型相似性矩陣,用于發現與疾病關聯最多的分子通路,可能用于藥物研發和疾病治療。Chen等[18]通過OMIM疾病表型相似網絡,預測了疾病與疾病發生、發展密切相關的MicroRNAs。

表 1總結了迄今為止OMIM數據挖掘的主要成果以及相關的在線軟件。
5 總結與展望
對OMIM所總結的疾病表型進行挖掘,對于發現致病基因、闡明分子網絡具有重要的意義。然而,目前尚無理想的工具對各種挖掘方法進行系統評估,對于OMIM的挖掘仍存在以下問題:
(1)需要提高表型描述的規范化程度。OMIM數據的分類依據仍未統一,存在解剖學、生理學以及胚胎發育學概念混用的局面。將OMIM數據轉化為MeSH、UMLS或HPO詞匯存在一定的困難。對HPO不斷進行完善,建成基于HPO的OMIM表型錄入標準化,將從數據源頭上實現規范化。
(2)需要構建表型本體論-疾病本體論(Disease Ontology)-基因本體論之間的關聯。建立一個人類癥狀-疾病-基因的內部關聯數據庫,將有助于系統地揭示疾病與基因的關聯。
(3)需要從更高的層次描述人類表型相似性與候選基因之間的定性和定量關系。為了更精確地衡量表型的相似性,需要根據實際需要進行不同程度的抽象。這也將有助于理解表型在何種相似度下可揭示基因的共同屬性。
(4)實現OMIM數據與基因、蛋白質等多種數據庫聯合及跨物種比較,實現大規模多源異構數據的有效融合,以揭示表型與基因型之間的關聯。