基因芯片以其高通量、微型化和自動化等優點成為醫學基因診斷的重要工具,芯片探針的設計和篩選是制備高質量基因芯片關鍵步驟之一。目前,已有不少探針設計軟件被開發出來,它們針對不同的設計對象,顯示出各自的優勢和局限性。本文聚焦寡核苷酸探針篩選設計的三個基本標準,即特異性、敏感性和熔點(Tm),介紹了探針設計軟件研究發展狀況。結合文獻報道,對軟件的用途進行分類說明。本綜述將有助于用戶快速選擇合適的軟件用于探針設計,對降低芯片制備成本、提高芯片應用研究效率、促進高性能的探針設計軟件研究及商品化具有重要的意義。
引用本文: 陳熹, 吳灶全, 劉正春. 寡核苷酸芯片探針設計軟件研究進展. 生物醫學工程學雜志, 2014, 31(1): 214-221. doi: 10.7507/1001-5515.20140041 復制
引言
從1953年Watson和Crick提出了DNA分子雙螺旋結構假說[1]以來,生命科學領域有了翻天覆地的變化,開始進入了分子生物學時代。隨著人類基因組計劃和一些生物全基因組序列測定的完成,分子生物學研究從單個基因和功能蛋白的研究轉向基因組學和蛋白質組學的后基因時代,基因芯片技術應運而生。到20世紀90年代,Schena等發展了DNA微陣列技術[2],從而實現了對數以千計的基因同時進行表達檢測。基因芯片技術可以監控成千上萬基因的存在或表達,并且只需要一個實驗就可以在定性、定量兩方面同時進行分析[3]。因此,微陣列技術使得分子生物學飛速發展,其應用非常廣泛,主要包括基因測序及繪制基因圖譜[3-4]、基因表達分析[5] 、基因突變的檢測及遺傳疾病與腫瘤診斷[6-7]、微生物生態學應用[8-10]、藥物研究[11]及毒理學研究[12]等。
基因芯片探針的設計是進行芯片實驗的第一步,探針設計的優劣直接關系到芯片的質量,必須考慮很多的參數以確保所選擇的探針具有高特異性和高靈敏度。有不少文獻報道了算法基本成熟的探針設計軟件,其中有些軟件已被應用于實際芯片設計,例如Candela和同事用ORMA設計HTF-Microbi Array,對人體腸道微生物群落進行高級別分類[13]。各個軟件設定的探針選擇標準不同,適用研究對象有所差異,涵蓋了專門為微生物群落設計的功能芯片探針(HiSpOD、HPD等)、PCR引物(PrimeArray、PROBEmer等)、一般的寡核苷酸探針(ProbeSelect、OligoArray等),以及一些比較特殊的探針,例如overgo探針(OligoSpawn)和疊瓦式陣列探針(OligTiler)等。如何選擇最合適的探針設計軟件成為芯片應用研究中要解決的難題之一。
寡核苷酸探針設計軟件的目標是從用戶輸入的序列中得到一條或者一組最優探針。用戶根據自己的需要,確定并輸入靶標集,按一定的規則從其互補序列上截取片段,形成候選探針集,在此基礎上通過設置特定的參數來分析這些探針與靶標之間的相互作用,以確定有效探針或探針集。本文基于寡核苷酸探針篩選設計的三個基本標準,即特異性、敏感性和熔點(Tm),對文獻報道的探針設計軟件(詳見表 1)研究現狀進行分析,并結合文獻中的實驗數據,對軟件的用途進行分類說明,同時分析各類軟件的優缺點。這些信息有助于用戶快速選擇合適的軟件用于探針設計,對降低芯片制備成本、提高芯片應用研究效率、促進高性能的探針設計軟件研究及商品化具有重要的意義。

1 探針設計篩選標準
1.1 特異性
特異性主要是指在雜交環境中探針與非靶標序列的不結合度。其中交叉雜交是一個影響特異性的重要因素,一般使用Kane的兩大規則檢測交叉雜交程度,即探針與非靶標的配對堿基的百分數≤75%~80%、與非靶標的連續配對個數≥15 nt[14]。大多數軟件使用BLAST(basic local alignment search tool)做這步檢測,例如HiSpOD分別用BLASTN和BLASTClust檢測序列相似度,以排除交叉雜交。OligoArray、ArrayOligoSelect和OligoWiz用BLAST來預測探針與靶標的相似度,并且結合熱力學計算估計交叉雜交,通過計算探針與非靶標之間的結合自由能來判斷兩者的結合穩定程度。熱力學參數是基于溶液中實驗所得的參數,而不是固定在硅基片上的,依此所得計算結果只是一個近似值,現在已經得到普遍認同,其中最常用的計算參數來自Santalucia熱力學參數表[15]。OligoPicker使用散列法和BLAST相結合的方法對序列相似度進行評估,可以實現兩個結果的互相校核。CommOligo對序列特異性的檢測類似于OligoPicker,同時還對探針與非靶標的連續匹配長度以及兩者的最小結合自由能這兩項標準進行評估篩選.大多數軟件只使用了Kane兩大規則和計算結合自由能中的一種或者兩種標準,CommOligo則結合了三種標準預測探針的交叉雜交情況,可有效減少漏檢和錯檢。
為了克服上述這些軟件在相似度檢測上的局限性,一些軟件引入了后綴陣列(suffix array)的方法。例如ProbeSelect,用基因組中的編碼序列建立一個suffix array,然后在suffix array的基礎上建立序列藍圖,用來計算編碼序列所有子序列的出現頻率,保證其在探針集中是獨一無二的。但是ProbeSelect不能檢測探針在整個基因組中的特異性,還需要用BLAST進行對比篩選。PROBEmer、Picky和PROBER都是采用這種方法,其中ProbeSelect和Picky還結合熱力學進行計算。
在熱力學計算預測探針特異性方面,雜交自由能預測也是一種交叉雜交預測方法。目前惟一運用這種方法的軟件是Osprey,軟件使用特殊位置打分矩陣(position-specific scoring matrices,PSSMs),用Gribskov代替隱馬爾科夫模型[16],通過計算正配、錯配堿基的自由能、鄰近堿基的自由能等來檢測交叉雜交。
在序列比對分析預測探針特異性方面,除了BLAST程序外,大多數應用于微生物生態學的軟件使用多重序列對比或者分層聚類的方法檢測探針特異性。PhylArray、Metabolic Design和ORMA都是用ClustW進行多重序列對比,HPD和ProDesign則使用分層聚類的方法。ARB和YODA分別用自定義的Probe Match和SeqMatch程序檢測序列相似度。
低復雜度區域也是影響探針特異性的因素,大多數軟件都會將這些區域過濾掉。HiSpOD、OligoSpawn、Oligo Picker和Oligodb均使用美國國立生物技術信息中心(National Center of Biotechnology Information,NCBI)工具箱中的DUST程序對低復雜度區域進行過濾,但是沒有檢查重復序列。OligoWiz則使用自定義的公式計算低復雜度的分數,ORMA通過熱力學方法進行打分,設置一定的分數閾值來過濾低復雜度區域。Picky通過使用suffix array數據結構過濾掉低復雜度區域和重復序列。ROSO、ProbeSelect、CommOligo和Osprey對重復序列進行了檢查。也有一些軟件沒有考慮這個因素,例如HPD、Metabolic Design和Prodesign等。
1.2 敏感性
敏感性是最大限度地檢測到探針和靶基因雜交的低信號點。在理想情況下,特異探針檢測到的雜交信號,是樣本群體的靶基因豐度值的直接測量。一般來說,較長的探針敏感性較高,因為探針和靶之間的結合力隨著長度增加而增加。很明顯,用于探針和靶基因之間雜交的堿基越多,信號會越強。但是,與可以定義序列的特異性不同,影響敏感性的因素要復雜得多,敏感性取決于探針序列的熱力學特性、在雜交條件下與靶序列的結合能力、芯片片基的表面化學和芯片上探針的濃度[17]。雜交過程中,探針與靶標可能形成二級結構和同源二聚體來干擾探針與靶標的結合,從而減弱信號強度,對實驗結果造成干擾[18]。因此,在設計探針時需要對各種可能的情況進行綜合分析,一般有兩種方法:一是通過計算結合自由能△G來評價各種分子折疊形態的穩定性,如果形成的二級結構穩定性強于某個閾值,則剔除探針。在任何溫度下的△G可以通過統計焓△H和熵△S來計算(公式1),即
$\Delta G=\Delta H-T*\Delta S,$ |
式中T表示實驗溫度。
第二種方法是檢測自雜交或自折疊,即檢測探針之間或者探針兩端堿基的相互匹配程度,如果連續匹配的堿基數超過軟件默認的閾值或者用戶設置的閾值,則將探針剔除。
Osprey、OligoArray、Oligodb等軟件直接使用M-fold程序,排除莖環結構探針,M-fold程序的原理是根據熱力學參數計算最小折疊自由能(minimum folding energy,MFE),所以本質上與第一種方法相似。CommOligo也是用M-fold計算莖環結構,同時還用了過濾自雜交探針的方法來過排除可能形成二級結構的探針。HPD、ROSO使用熱力學參數計算自由能△G,過濾可能形成穩定二級結構的探針。OligoWiz1.0沒有這項功能,在升級為OligoWiz2.0版本后,添加了用熱力學方法對可能的自折疊探針自定義打分的項目,實現對自折疊探針的有效剔除。PROBEmer和ProbeSelect都使用檢測自雜交的方法,OligoPicker還使用了BLAST進行輔助檢測。另外,Picky和YODA利用suffix array數據結構的優勢,結合交叉雜交來檢測探針的靈敏度。
兩種方法各有優勢,使用自雜交和自折疊檢測,需要進行大量的序列對比,容易出現漏檢和錯檢,但是使用起來簡單方便;用熱力學參數計算自由能的方法計算復雜度高,但是能夠更為科學地表示二聚體的穩定性。Lemoine等[19]的實驗結果表明,M-fold程序能有效地檢測二級結構,達到比較理想的效果。因此,在設計探針時如果對Tm值的要求較高,可以考慮使用Osprey、 CommOligo等軟件。
1.3 熔點(Tm)
由于所有的探針要與靶標在相同環境下同時雜交,為了達到探針集的一致性,則所有探針的Tm值都要在一個較小的范圍之內。因為所有Tm值計算公式針對的都是游離的寡核苷酸,而不是固定在硅基片上的探針,所以Tm值的計算結果與實際芯片實驗所需要的Tm值有一定誤差,因此,我們在檢測探針一致性時,主要目標不是計算每一條探針精確的Tm值,而是篩選出Tm值相近的一組或多組探針。雖然目前還存在爭議,但Tm值仍然被大多數人認為是實證試驗中最重要的參數之一。探針設計軟件中的Tm值計算公式主要有兩種:一種是與GC含量有關的基于序列組成的公式,例如OligoPicker和HiSpOD使用的是Wallace-Ikatura公式[20](公式2)的校正公式[21-22](公式3、公式4),其中OligoPicker沒有對GC%進行選擇,因為Tm值計算公式中已經考慮了GC含量;
${{T}_{m}}=2\left( A+T \right)+4\left( G+C \right),$ |
${{T}_{m}}=64.9+\frac{41\times GC%}{n}-\frac{600}{n},$ |
${{T}_{m}}=79.8+18.5\times \log \left( \left[ N{{a}^{+}} \right] \right)+58.4\times GC%+11.8\times {{\left( GC% \right)}^{2}}-\frac{920}{n},$ |
其中n為堿基對的數目,[Na+]為鹽離子濃度。公式3是在Wallace-Ikatura公式的基礎上增加了 GC%校正系數,公式4則同時考慮了鹽濃度和GC%對Tm值預測的影響。因此,相對地,HiSpOD對Tm值的預測更精確一些。但總的來說這種方法只對較短序列有效,而且精度有限,而另一種基于熱力學參數的最鄰近法(nearest-neighbor,NN)的鹽濃度校正公式[23-24](公式5、公式6),相較于前一種方法精確度更高,所以大多數軟件都使用了這類公式,如OligoWiz、ORMA、Osprey、PROBER、ROSO、CommOligo和ProbeSelect等。
${\rm{correction = }}\left( {4.29 \times GC\% - 3.95} \right) \times {10^{ - 5}} \times \log \left[ {N{a^ + }} \right] + 9.40 \times {10^{ - 6}} \times {\left( {\log \left[ {N{a^ + }} \right]} \right)^2},$ |
${{T}_{m}}=\frac{1}{\frac{1}{\Delta H/\left[ \Delta S+R*\log \left( Ct/4 \right) \right]}+\text{correction}}-273.15,$ |
式中△H和△S分別為基于熱力學參數表統計出來的焓變和及熵變和; R為摩爾氣體常數,等于1.987 cal/mol K;Ct的值有三種情況:① 在計算自身互補的Tm時Ct等于核酸單鏈的總摩爾濃度;② 在兩條雜交鏈的濃度相似時Ct等于4倍總摩爾濃度;③ 設計PCR引物時兩條雜交鏈中的一條過量時,Ct等于2倍總摩爾濃度;[Na+]為雜交液的鹽離子濃度。這類方法計算Tm值的差別在于選用了不同的熱力學參數,使用較多的是SantaLucia[15]或者Rychlik[25]熱力學參數表。
還有一些軟件直接使用程序計算Tm值,例如Oligodb使用的是melting程序,而OligoSpawn和PROBEmer則使用了PRIMER3。
比較特殊的是Picky,這款軟件沒有讓用戶定義一個Tm值范圍,而是先根據熱力學參數計算探針與靶標雜交的Tm值(Tm),再計算探針與所有雜交可能性的非靶標的Tm值(Tm’),根據探針長度范圍和上一步結果計算△Tm值(Tm’max-Tmmin),用戶設定一個△Tm的閾值(最好為15~20 ℃)來篩選探針。YODA和OligoArray則可以通過調整參數來優化Tm值,它們主要采用調整探針長度的方法來縮小Tm值范圍。與Tm值密切相關的有底物濃度、pH值、鈉離子濃度以及GC%和探針長度。前面三項需要在實驗時進行調整,后面兩項則可以在設計探針時考慮進來。有些軟件是直接將不在某個GC%范圍內的探針濾掉了,例如ROSO將GC含量為40%~65%作為一個固定標準。類似的有CommOligo、OligoArray、PROBERmer、YODA和HPD。Picky則允許用戶自定義GC含量,參數設置比較靈活,適合于GC含量很高或很低的基因組的探針設計。還有OligoWiz、ORMA、Osprey、Oligodb和PROBER沒有考慮GC含量。除了OligoSpawn將探針長度固定為36 mer之外,其它軟件一般都允許用戶調整探針長度。
2 探針設計軟件的應用
目前,很多探針設計程序都可以免費用來做學術研究,其應用的領域各不相同(詳見表 2)。下面主要從一般寡核苷酸芯片和應用于微生物檢測的功能基因芯片探針設計的角度對軟件功能進行分析。

用于設計一般寡核苷酸的探針設計軟件,都是基于不同類型的數據庫開發的。例如OligoPicker的序列信息來源主要是NCBI的蛋白質數據庫GenPept,ROSO也主要為蛋白質編碼序列設計探針。Oligodb只應用于人類基因的轉錄本探針設計。OligoArray可以對外顯子、mRNA等設計探針。OligoWiz對設計對象更嚴格,只能處理其服務器中現有的基因組。此外還有ProbeSelect、OligoArray、ProbeMaker、PROBER等,都不能處理大規模基因組,或者在特異性檢測方面存在一定的局限性,不能針對高同源性序列設計探針。 CommOligo既可以實現探針的特異性檢測,又能實現對高同源性序列探針的設計。在大規模基因組處理方面Picky和Osprey具有分析速度快的優點,且篩選出的探針都表現出比較高的特異性。另外,還有一些軟件用于特殊探針的設計,如OligoSpawn被用來專門設計overgo探針,OligoTiler、PROBER則用于設計疊瓦式陣列探針等。
隨著工業的發展,環境問題越來越受到人們的重視,為了更好地解決環境問題,人們不斷嘗試使用新的研究方法和技術。環境樣品中微生物表現出了巨大的多樣性和復雜性,為了探索在不同的生態系統下這些微生物巨大的未知代謝潛力,我們需要高并行性、高通量的工具,例如微生物功能芯片,能夠同時分析成千上萬的基因。專門針對微生物生態學研究的芯片探針設計軟件不是很多,這里介紹其中有代表性的七種。 YODA的功能比較全面,主要用于篩選標簽序列來輔助生物學研究,可以針對單基因組、多基因組、病原體宿主、動物或菌株鑒定設計多重探針。不過YODA在特異性檢測和Tm值的篩選上,沒有表現出優勢。ARB可以設計系統進化芯片,探針長度定位在10~100 mer,不能對一組相似序列的位點進行區別檢測。 ORMA是第一款應用于針對16S rRNA基因設計探針的軟件,可以對任何高度相似的序列設計探針。與ARB一樣,ORMA只能用于檢測已知的微生物。PhylArray則可以針對已知或未知微生物群落的小亞基核糖體RNA(small subunit ribosomal RNA,SSU rRNA)設計探針,是目前惟一被用于系統發生寡核苷酸芯片(phylogenetic oligonucleotide arrays,POAs)探針設計的軟件,還可以用來設計探索性探針,其特異性和敏感性都比ARB高。HPD是第一個基于探針集群特異性的功能寡核苷酸探針專用設計軟件,因為使用了分層聚類和簇覆蓋(cluster coverage)的方法,探針設計范圍可以覆蓋一個給定基因家族的各種變異序列。HiSpOD是研究微生物群落的專屬軟件,針對微生物群落的大型數據庫EnvExBase設計探針,這個數據庫包括原核生物細胞(prokaryotic cell,PRO)中的所有編碼DNA序列以及EMBL數據庫(European Molecular Biology Laboratory,EMBL)。大多數功能芯片只能用專門的探針檢測已知序列,不能覆蓋復雜環境中所表現出來的所有微生物的基因多樣性。Metabolic Design采用了一種新的算法,用于設計高效的探索性探針,可以用于研究任何基因組,針對各類多環芳烴降解酶基因編碼,設計高特異性和高敏感性的探針。
3 探針設計軟件的選擇
能否選擇出最合適的寡核苷酸探針設計軟件是獲得最好的芯片探針的前提。Dugat-Bony等[21]對長寡核苷酸探針設計軟件進行實驗分析。 Dugat-Bony等[26]則對系統和功能芯片探針設計軟件的結果進行對比,由此可以探討各種探針設計軟件的優缺點,適用對象的差異性(詳見表 2),為用戶選擇合適的探針設計軟件提供參考。
ORMA最大的優點是其設計的探針具有非常高的特異性,能夠在一組同源序列例如16SrRNA的基因中區分位點。Picky通過構建suffix array數據結構,采用Kane規則進行探針特異性檢測,效果也非常好。Dugat-Bony等的研究表明OligoPicker和Picky在同類軟件中預測特異性方面是最好的,同時指出使用Mfold程序檢測二級結構的效果很好,這就意味著Osprey、OligoArray、Oligodb和CommOligo都能較好地排除二聚體、發夾結構等等。Tm值范圍的確定是一個難題,Picky不需要先驗的Tm參數值,而是利用熱力學參數縮小Tm值范圍,有利于減少人為干擾因素。OligoWiz使用等溫設計法,能挑選出Tm值變化非常微小的探針。ArrayOligoSelector、YODA和OligoArray通過改變探針長度來優化Tm值范圍,其中ArrayOligoSelector在實驗結果中表現出較好的篩選效果。
不同學術背景的用戶對軟件要求不同。沒有計算機背景的生物學家,需要使用用戶友好的界面,如GUI界面,不需要手動設置太多參數,并且易于安裝和操作。這些用戶可以選用不需安裝、非常方便的在線軟件,例如Oligodb、ROSO、Mprime、PROBEmer和Osprey,不過這些軟件不適合大量探針的設計。他們還可以選擇能夠在不同操作平臺下運行的程序,例如Picky、YODA、OligoWiz等。其中YODA最大的優點就是易于快速安裝,但其設計的探針特異性不高;OligoWiz能很好地預測探針集Tm值的一致性,對特異性和敏感性的檢測也比較精確。另外,還有CommOligo和HPD可供這些用戶選用,它們均在Windows系統下運行,與其它基于Linux/Unix系統開發的程序(HiSpOD、OligoSpawn和ProbeMaker等)相比,省去了安裝Linux/Unix系統的步驟,操作也相對簡單。 ArrayOligoSelect、OligoPicker和ProbeSelect都是使用命令行運行程序,且還需安裝其他程序,如BLAST或Mfold,過程繁瑣,并不適合這類用戶。
另一類用戶則是經驗豐富的計算機科學家,他們可能需要參考這些軟件來開發新的同類軟件。如果這些用戶需要研究針對特殊探針的設計,可以參考OligoSpawn(設計overgo探針)、OligTiler和PROBER(設計疊瓦式陣列)的方法。如果他們想要了解這類軟件設計的一般工作流程,可以參考CommOligo。Commoligo有詳細的工作流程圖和探針評價打分公式,并且只要參數選擇無誤,就能得到預期的優良探針,有較好的篩選效果。那些想要研究特異性算法的用戶,可以選擇Picky、Osprey、CommOligo和ORMA。Picky構建的suffix array數據結構和Osprey對雜交自由能的預測都是比較獨特的預測探針特異性的方法,CommOligo和ORMA篩選出的探針都具有非常高的特異性。想要快速開發軟件的用戶,則可以借鑒HiSpOD的方法,該軟件采用了大量的開源程序。
4 結語
基因芯片探針的設計是獲得高質量芯片的關鍵之處,本文盡作者所知,深入剖析了文獻報道各類寡核苷酸探針軟件的異同,探討了各個軟件的特點與局限性、數據庫適用性及目標適應性等,有利于用戶從同類軟件中快速挑選最合適的一個,設計出具有高特異性和高靈敏度的探針。
目前,探針設計軟件的局限性主要體現在數據庫和特異性檢測兩個方面。對設計好的微生物探針進行檢測時,經常缺少合適的數據庫進行序列對比,因此,完善各類序列數據庫是得到高質量芯片探針的重要保障。另外,使用大型數據庫進行特異性檢測非常耗時,要想在不影響特異性檢測效果的前提下加快檢測速度,可以采用聚類或者新興的云計算等并行化算法,及時共享計算資源,這些都是基因芯片研究面臨的挑戰和可能的解決辦法。
引言
從1953年Watson和Crick提出了DNA分子雙螺旋結構假說[1]以來,生命科學領域有了翻天覆地的變化,開始進入了分子生物學時代。隨著人類基因組計劃和一些生物全基因組序列測定的完成,分子生物學研究從單個基因和功能蛋白的研究轉向基因組學和蛋白質組學的后基因時代,基因芯片技術應運而生。到20世紀90年代,Schena等發展了DNA微陣列技術[2],從而實現了對數以千計的基因同時進行表達檢測。基因芯片技術可以監控成千上萬基因的存在或表達,并且只需要一個實驗就可以在定性、定量兩方面同時進行分析[3]。因此,微陣列技術使得分子生物學飛速發展,其應用非常廣泛,主要包括基因測序及繪制基因圖譜[3-4]、基因表達分析[5] 、基因突變的檢測及遺傳疾病與腫瘤診斷[6-7]、微生物生態學應用[8-10]、藥物研究[11]及毒理學研究[12]等。
基因芯片探針的設計是進行芯片實驗的第一步,探針設計的優劣直接關系到芯片的質量,必須考慮很多的參數以確保所選擇的探針具有高特異性和高靈敏度。有不少文獻報道了算法基本成熟的探針設計軟件,其中有些軟件已被應用于實際芯片設計,例如Candela和同事用ORMA設計HTF-Microbi Array,對人體腸道微生物群落進行高級別分類[13]。各個軟件設定的探針選擇標準不同,適用研究對象有所差異,涵蓋了專門為微生物群落設計的功能芯片探針(HiSpOD、HPD等)、PCR引物(PrimeArray、PROBEmer等)、一般的寡核苷酸探針(ProbeSelect、OligoArray等),以及一些比較特殊的探針,例如overgo探針(OligoSpawn)和疊瓦式陣列探針(OligTiler)等。如何選擇最合適的探針設計軟件成為芯片應用研究中要解決的難題之一。
寡核苷酸探針設計軟件的目標是從用戶輸入的序列中得到一條或者一組最優探針。用戶根據自己的需要,確定并輸入靶標集,按一定的規則從其互補序列上截取片段,形成候選探針集,在此基礎上通過設置特定的參數來分析這些探針與靶標之間的相互作用,以確定有效探針或探針集。本文基于寡核苷酸探針篩選設計的三個基本標準,即特異性、敏感性和熔點(Tm),對文獻報道的探針設計軟件(詳見表 1)研究現狀進行分析,并結合文獻中的實驗數據,對軟件的用途進行分類說明,同時分析各類軟件的優缺點。這些信息有助于用戶快速選擇合適的軟件用于探針設計,對降低芯片制備成本、提高芯片應用研究效率、促進高性能的探針設計軟件研究及商品化具有重要的意義。

1 探針設計篩選標準
1.1 特異性
特異性主要是指在雜交環境中探針與非靶標序列的不結合度。其中交叉雜交是一個影響特異性的重要因素,一般使用Kane的兩大規則檢測交叉雜交程度,即探針與非靶標的配對堿基的百分數≤75%~80%、與非靶標的連續配對個數≥15 nt[14]。大多數軟件使用BLAST(basic local alignment search tool)做這步檢測,例如HiSpOD分別用BLASTN和BLASTClust檢測序列相似度,以排除交叉雜交。OligoArray、ArrayOligoSelect和OligoWiz用BLAST來預測探針與靶標的相似度,并且結合熱力學計算估計交叉雜交,通過計算探針與非靶標之間的結合自由能來判斷兩者的結合穩定程度。熱力學參數是基于溶液中實驗所得的參數,而不是固定在硅基片上的,依此所得計算結果只是一個近似值,現在已經得到普遍認同,其中最常用的計算參數來自Santalucia熱力學參數表[15]。OligoPicker使用散列法和BLAST相結合的方法對序列相似度進行評估,可以實現兩個結果的互相校核。CommOligo對序列特異性的檢測類似于OligoPicker,同時還對探針與非靶標的連續匹配長度以及兩者的最小結合自由能這兩項標準進行評估篩選.大多數軟件只使用了Kane兩大規則和計算結合自由能中的一種或者兩種標準,CommOligo則結合了三種標準預測探針的交叉雜交情況,可有效減少漏檢和錯檢。
為了克服上述這些軟件在相似度檢測上的局限性,一些軟件引入了后綴陣列(suffix array)的方法。例如ProbeSelect,用基因組中的編碼序列建立一個suffix array,然后在suffix array的基礎上建立序列藍圖,用來計算編碼序列所有子序列的出現頻率,保證其在探針集中是獨一無二的。但是ProbeSelect不能檢測探針在整個基因組中的特異性,還需要用BLAST進行對比篩選。PROBEmer、Picky和PROBER都是采用這種方法,其中ProbeSelect和Picky還結合熱力學進行計算。
在熱力學計算預測探針特異性方面,雜交自由能預測也是一種交叉雜交預測方法。目前惟一運用這種方法的軟件是Osprey,軟件使用特殊位置打分矩陣(position-specific scoring matrices,PSSMs),用Gribskov代替隱馬爾科夫模型[16],通過計算正配、錯配堿基的自由能、鄰近堿基的自由能等來檢測交叉雜交。
在序列比對分析預測探針特異性方面,除了BLAST程序外,大多數應用于微生物生態學的軟件使用多重序列對比或者分層聚類的方法檢測探針特異性。PhylArray、Metabolic Design和ORMA都是用ClustW進行多重序列對比,HPD和ProDesign則使用分層聚類的方法。ARB和YODA分別用自定義的Probe Match和SeqMatch程序檢測序列相似度。
低復雜度區域也是影響探針特異性的因素,大多數軟件都會將這些區域過濾掉。HiSpOD、OligoSpawn、Oligo Picker和Oligodb均使用美國國立生物技術信息中心(National Center of Biotechnology Information,NCBI)工具箱中的DUST程序對低復雜度區域進行過濾,但是沒有檢查重復序列。OligoWiz則使用自定義的公式計算低復雜度的分數,ORMA通過熱力學方法進行打分,設置一定的分數閾值來過濾低復雜度區域。Picky通過使用suffix array數據結構過濾掉低復雜度區域和重復序列。ROSO、ProbeSelect、CommOligo和Osprey對重復序列進行了檢查。也有一些軟件沒有考慮這個因素,例如HPD、Metabolic Design和Prodesign等。
1.2 敏感性
敏感性是最大限度地檢測到探針和靶基因雜交的低信號點。在理想情況下,特異探針檢測到的雜交信號,是樣本群體的靶基因豐度值的直接測量。一般來說,較長的探針敏感性較高,因為探針和靶之間的結合力隨著長度增加而增加。很明顯,用于探針和靶基因之間雜交的堿基越多,信號會越強。但是,與可以定義序列的特異性不同,影響敏感性的因素要復雜得多,敏感性取決于探針序列的熱力學特性、在雜交條件下與靶序列的結合能力、芯片片基的表面化學和芯片上探針的濃度[17]。雜交過程中,探針與靶標可能形成二級結構和同源二聚體來干擾探針與靶標的結合,從而減弱信號強度,對實驗結果造成干擾[18]。因此,在設計探針時需要對各種可能的情況進行綜合分析,一般有兩種方法:一是通過計算結合自由能△G來評價各種分子折疊形態的穩定性,如果形成的二級結構穩定性強于某個閾值,則剔除探針。在任何溫度下的△G可以通過統計焓△H和熵△S來計算(公式1),即
$\Delta G=\Delta H-T*\Delta S,$ |
式中T表示實驗溫度。
第二種方法是檢測自雜交或自折疊,即檢測探針之間或者探針兩端堿基的相互匹配程度,如果連續匹配的堿基數超過軟件默認的閾值或者用戶設置的閾值,則將探針剔除。
Osprey、OligoArray、Oligodb等軟件直接使用M-fold程序,排除莖環結構探針,M-fold程序的原理是根據熱力學參數計算最小折疊自由能(minimum folding energy,MFE),所以本質上與第一種方法相似。CommOligo也是用M-fold計算莖環結構,同時還用了過濾自雜交探針的方法來過排除可能形成二級結構的探針。HPD、ROSO使用熱力學參數計算自由能△G,過濾可能形成穩定二級結構的探針。OligoWiz1.0沒有這項功能,在升級為OligoWiz2.0版本后,添加了用熱力學方法對可能的自折疊探針自定義打分的項目,實現對自折疊探針的有效剔除。PROBEmer和ProbeSelect都使用檢測自雜交的方法,OligoPicker還使用了BLAST進行輔助檢測。另外,Picky和YODA利用suffix array數據結構的優勢,結合交叉雜交來檢測探針的靈敏度。
兩種方法各有優勢,使用自雜交和自折疊檢測,需要進行大量的序列對比,容易出現漏檢和錯檢,但是使用起來簡單方便;用熱力學參數計算自由能的方法計算復雜度高,但是能夠更為科學地表示二聚體的穩定性。Lemoine等[19]的實驗結果表明,M-fold程序能有效地檢測二級結構,達到比較理想的效果。因此,在設計探針時如果對Tm值的要求較高,可以考慮使用Osprey、 CommOligo等軟件。
1.3 熔點(Tm)
由于所有的探針要與靶標在相同環境下同時雜交,為了達到探針集的一致性,則所有探針的Tm值都要在一個較小的范圍之內。因為所有Tm值計算公式針對的都是游離的寡核苷酸,而不是固定在硅基片上的探針,所以Tm值的計算結果與實際芯片實驗所需要的Tm值有一定誤差,因此,我們在檢測探針一致性時,主要目標不是計算每一條探針精確的Tm值,而是篩選出Tm值相近的一組或多組探針。雖然目前還存在爭議,但Tm值仍然被大多數人認為是實證試驗中最重要的參數之一。探針設計軟件中的Tm值計算公式主要有兩種:一種是與GC含量有關的基于序列組成的公式,例如OligoPicker和HiSpOD使用的是Wallace-Ikatura公式[20](公式2)的校正公式[21-22](公式3、公式4),其中OligoPicker沒有對GC%進行選擇,因為Tm值計算公式中已經考慮了GC含量;
${{T}_{m}}=2\left( A+T \right)+4\left( G+C \right),$ |
${{T}_{m}}=64.9+\frac{41\times GC%}{n}-\frac{600}{n},$ |
${{T}_{m}}=79.8+18.5\times \log \left( \left[ N{{a}^{+}} \right] \right)+58.4\times GC%+11.8\times {{\left( GC% \right)}^{2}}-\frac{920}{n},$ |
其中n為堿基對的數目,[Na+]為鹽離子濃度。公式3是在Wallace-Ikatura公式的基礎上增加了 GC%校正系數,公式4則同時考慮了鹽濃度和GC%對Tm值預測的影響。因此,相對地,HiSpOD對Tm值的預測更精確一些。但總的來說這種方法只對較短序列有效,而且精度有限,而另一種基于熱力學參數的最鄰近法(nearest-neighbor,NN)的鹽濃度校正公式[23-24](公式5、公式6),相較于前一種方法精確度更高,所以大多數軟件都使用了這類公式,如OligoWiz、ORMA、Osprey、PROBER、ROSO、CommOligo和ProbeSelect等。
${\rm{correction = }}\left( {4.29 \times GC\% - 3.95} \right) \times {10^{ - 5}} \times \log \left[ {N{a^ + }} \right] + 9.40 \times {10^{ - 6}} \times {\left( {\log \left[ {N{a^ + }} \right]} \right)^2},$ |
${{T}_{m}}=\frac{1}{\frac{1}{\Delta H/\left[ \Delta S+R*\log \left( Ct/4 \right) \right]}+\text{correction}}-273.15,$ |
式中△H和△S分別為基于熱力學參數表統計出來的焓變和及熵變和; R為摩爾氣體常數,等于1.987 cal/mol K;Ct的值有三種情況:① 在計算自身互補的Tm時Ct等于核酸單鏈的總摩爾濃度;② 在兩條雜交鏈的濃度相似時Ct等于4倍總摩爾濃度;③ 設計PCR引物時兩條雜交鏈中的一條過量時,Ct等于2倍總摩爾濃度;[Na+]為雜交液的鹽離子濃度。這類方法計算Tm值的差別在于選用了不同的熱力學參數,使用較多的是SantaLucia[15]或者Rychlik[25]熱力學參數表。
還有一些軟件直接使用程序計算Tm值,例如Oligodb使用的是melting程序,而OligoSpawn和PROBEmer則使用了PRIMER3。
比較特殊的是Picky,這款軟件沒有讓用戶定義一個Tm值范圍,而是先根據熱力學參數計算探針與靶標雜交的Tm值(Tm),再計算探針與所有雜交可能性的非靶標的Tm值(Tm’),根據探針長度范圍和上一步結果計算△Tm值(Tm’max-Tmmin),用戶設定一個△Tm的閾值(最好為15~20 ℃)來篩選探針。YODA和OligoArray則可以通過調整參數來優化Tm值,它們主要采用調整探針長度的方法來縮小Tm值范圍。與Tm值密切相關的有底物濃度、pH值、鈉離子濃度以及GC%和探針長度。前面三項需要在實驗時進行調整,后面兩項則可以在設計探針時考慮進來。有些軟件是直接將不在某個GC%范圍內的探針濾掉了,例如ROSO將GC含量為40%~65%作為一個固定標準。類似的有CommOligo、OligoArray、PROBERmer、YODA和HPD。Picky則允許用戶自定義GC含量,參數設置比較靈活,適合于GC含量很高或很低的基因組的探針設計。還有OligoWiz、ORMA、Osprey、Oligodb和PROBER沒有考慮GC含量。除了OligoSpawn將探針長度固定為36 mer之外,其它軟件一般都允許用戶調整探針長度。
2 探針設計軟件的應用
目前,很多探針設計程序都可以免費用來做學術研究,其應用的領域各不相同(詳見表 2)。下面主要從一般寡核苷酸芯片和應用于微生物檢測的功能基因芯片探針設計的角度對軟件功能進行分析。

用于設計一般寡核苷酸的探針設計軟件,都是基于不同類型的數據庫開發的。例如OligoPicker的序列信息來源主要是NCBI的蛋白質數據庫GenPept,ROSO也主要為蛋白質編碼序列設計探針。Oligodb只應用于人類基因的轉錄本探針設計。OligoArray可以對外顯子、mRNA等設計探針。OligoWiz對設計對象更嚴格,只能處理其服務器中現有的基因組。此外還有ProbeSelect、OligoArray、ProbeMaker、PROBER等,都不能處理大規模基因組,或者在特異性檢測方面存在一定的局限性,不能針對高同源性序列設計探針。 CommOligo既可以實現探針的特異性檢測,又能實現對高同源性序列探針的設計。在大規模基因組處理方面Picky和Osprey具有分析速度快的優點,且篩選出的探針都表現出比較高的特異性。另外,還有一些軟件用于特殊探針的設計,如OligoSpawn被用來專門設計overgo探針,OligoTiler、PROBER則用于設計疊瓦式陣列探針等。
隨著工業的發展,環境問題越來越受到人們的重視,為了更好地解決環境問題,人們不斷嘗試使用新的研究方法和技術。環境樣品中微生物表現出了巨大的多樣性和復雜性,為了探索在不同的生態系統下這些微生物巨大的未知代謝潛力,我們需要高并行性、高通量的工具,例如微生物功能芯片,能夠同時分析成千上萬的基因。專門針對微生物生態學研究的芯片探針設計軟件不是很多,這里介紹其中有代表性的七種。 YODA的功能比較全面,主要用于篩選標簽序列來輔助生物學研究,可以針對單基因組、多基因組、病原體宿主、動物或菌株鑒定設計多重探針。不過YODA在特異性檢測和Tm值的篩選上,沒有表現出優勢。ARB可以設計系統進化芯片,探針長度定位在10~100 mer,不能對一組相似序列的位點進行區別檢測。 ORMA是第一款應用于針對16S rRNA基因設計探針的軟件,可以對任何高度相似的序列設計探針。與ARB一樣,ORMA只能用于檢測已知的微生物。PhylArray則可以針對已知或未知微生物群落的小亞基核糖體RNA(small subunit ribosomal RNA,SSU rRNA)設計探針,是目前惟一被用于系統發生寡核苷酸芯片(phylogenetic oligonucleotide arrays,POAs)探針設計的軟件,還可以用來設計探索性探針,其特異性和敏感性都比ARB高。HPD是第一個基于探針集群特異性的功能寡核苷酸探針專用設計軟件,因為使用了分層聚類和簇覆蓋(cluster coverage)的方法,探針設計范圍可以覆蓋一個給定基因家族的各種變異序列。HiSpOD是研究微生物群落的專屬軟件,針對微生物群落的大型數據庫EnvExBase設計探針,這個數據庫包括原核生物細胞(prokaryotic cell,PRO)中的所有編碼DNA序列以及EMBL數據庫(European Molecular Biology Laboratory,EMBL)。大多數功能芯片只能用專門的探針檢測已知序列,不能覆蓋復雜環境中所表現出來的所有微生物的基因多樣性。Metabolic Design采用了一種新的算法,用于設計高效的探索性探針,可以用于研究任何基因組,針對各類多環芳烴降解酶基因編碼,設計高特異性和高敏感性的探針。
3 探針設計軟件的選擇
能否選擇出最合適的寡核苷酸探針設計軟件是獲得最好的芯片探針的前提。Dugat-Bony等[21]對長寡核苷酸探針設計軟件進行實驗分析。 Dugat-Bony等[26]則對系統和功能芯片探針設計軟件的結果進行對比,由此可以探討各種探針設計軟件的優缺點,適用對象的差異性(詳見表 2),為用戶選擇合適的探針設計軟件提供參考。
ORMA最大的優點是其設計的探針具有非常高的特異性,能夠在一組同源序列例如16SrRNA的基因中區分位點。Picky通過構建suffix array數據結構,采用Kane規則進行探針特異性檢測,效果也非常好。Dugat-Bony等的研究表明OligoPicker和Picky在同類軟件中預測特異性方面是最好的,同時指出使用Mfold程序檢測二級結構的效果很好,這就意味著Osprey、OligoArray、Oligodb和CommOligo都能較好地排除二聚體、發夾結構等等。Tm值范圍的確定是一個難題,Picky不需要先驗的Tm參數值,而是利用熱力學參數縮小Tm值范圍,有利于減少人為干擾因素。OligoWiz使用等溫設計法,能挑選出Tm值變化非常微小的探針。ArrayOligoSelector、YODA和OligoArray通過改變探針長度來優化Tm值范圍,其中ArrayOligoSelector在實驗結果中表現出較好的篩選效果。
不同學術背景的用戶對軟件要求不同。沒有計算機背景的生物學家,需要使用用戶友好的界面,如GUI界面,不需要手動設置太多參數,并且易于安裝和操作。這些用戶可以選用不需安裝、非常方便的在線軟件,例如Oligodb、ROSO、Mprime、PROBEmer和Osprey,不過這些軟件不適合大量探針的設計。他們還可以選擇能夠在不同操作平臺下運行的程序,例如Picky、YODA、OligoWiz等。其中YODA最大的優點就是易于快速安裝,但其設計的探針特異性不高;OligoWiz能很好地預測探針集Tm值的一致性,對特異性和敏感性的檢測也比較精確。另外,還有CommOligo和HPD可供這些用戶選用,它們均在Windows系統下運行,與其它基于Linux/Unix系統開發的程序(HiSpOD、OligoSpawn和ProbeMaker等)相比,省去了安裝Linux/Unix系統的步驟,操作也相對簡單。 ArrayOligoSelect、OligoPicker和ProbeSelect都是使用命令行運行程序,且還需安裝其他程序,如BLAST或Mfold,過程繁瑣,并不適合這類用戶。
另一類用戶則是經驗豐富的計算機科學家,他們可能需要參考這些軟件來開發新的同類軟件。如果這些用戶需要研究針對特殊探針的設計,可以參考OligoSpawn(設計overgo探針)、OligTiler和PROBER(設計疊瓦式陣列)的方法。如果他們想要了解這類軟件設計的一般工作流程,可以參考CommOligo。Commoligo有詳細的工作流程圖和探針評價打分公式,并且只要參數選擇無誤,就能得到預期的優良探針,有較好的篩選效果。那些想要研究特異性算法的用戶,可以選擇Picky、Osprey、CommOligo和ORMA。Picky構建的suffix array數據結構和Osprey對雜交自由能的預測都是比較獨特的預測探針特異性的方法,CommOligo和ORMA篩選出的探針都具有非常高的特異性。想要快速開發軟件的用戶,則可以借鑒HiSpOD的方法,該軟件采用了大量的開源程序。
4 結語
基因芯片探針的設計是獲得高質量芯片的關鍵之處,本文盡作者所知,深入剖析了文獻報道各類寡核苷酸探針軟件的異同,探討了各個軟件的特點與局限性、數據庫適用性及目標適應性等,有利于用戶從同類軟件中快速挑選最合適的一個,設計出具有高特異性和高靈敏度的探針。
目前,探針設計軟件的局限性主要體現在數據庫和特異性檢測兩個方面。對設計好的微生物探針進行檢測時,經常缺少合適的數據庫進行序列對比,因此,完善各類序列數據庫是得到高質量芯片探針的重要保障。另外,使用大型數據庫進行特異性檢測非常耗時,要想在不影響特異性檢測效果的前提下加快檢測速度,可以采用聚類或者新興的云計算等并行化算法,及時共享計算資源,這些都是基因芯片研究面臨的挑戰和可能的解決辦法。