本文應用生物信息學技術預測結核分枝桿菌潛伏感染相關蛋白Rv2004c的抗原表位, 為結核病的診斷和疫苗研發篩選合適的抗原靶位。通過Blast分析發現Rv2004c蛋白與人類蛋白的同源性較低; 采用DNAStar軟件包中的Protean軟件分析其二級結構、親水性、抗原性、柔韌性及表面可能性, 預測該蛋白有10個候選B細胞抗原表位; 應用RANKPEP及SYFPEITHI法預測該蛋白有37個候選Th細胞抗原表位, 主要位于第200位氨基酸之后, 其中HLA-DRB1*0401及HLA-DRB1*0701表型相對的表位數目較多且某些候選表位的主要組織相容性復合體(MHC)限制類型存在交叉重疊; 應用SYFPEITHI法、BIMAS法及NetCTL法預測該蛋白有10個候選細胞毒性T淋巴細胞(CTL)表位, 其中以HLA-A2限制性表位數目較多、分值較高。由此得出結論:Rv2004c蛋白含有較多潛在的T細胞和B細胞抗原表位, 可作為新的結核病診斷試劑和疫苗研發的候選靶蛋白。
引用本文: 王東方, 白雪娟, 劉銀萍, 梁艷, 吳雪瓊, 林明貴. 結核分枝桿菌潛伏感染相關蛋白Rv2004c的抗原表位預測. 生物醫學工程學雜志, 2016, 33(2): 325-331. doi: 10.7507/1001-5515.20160055 復制
引言
結核病是全世界范圍內危害人類健康的主要傳染性疾病之一,是全世界由單一致病菌導致死亡最多的疾病,每年約導致150萬人死亡和超過900萬的新發結核病病例[1]。據世界衛生組織統計,全世界約有1/3的人感染過結核分枝桿菌,大多數呈潛伏感染狀態,潛伏感染者如不進行治療,有5%~10%的人會在其一生中發展成活動性結核病[2],結核分枝桿菌潛伏感染是結核病的重要來源,因此結核分枝桿菌潛伏感染的早期診斷和有效治療是結核病防治工作的重要措施之一。
Rv2004c是與缺氧相關的結核分枝桿菌潛伏感染相關抗原之一[3],是一種保守的假想蛋白。Forero等[4]用25條含20個氨基酸殘基的Rv2004c合成肽聚合物免疫新西蘭兔,應用免疫印跡技術在兔血清中檢測到特異性抗體。另有研究表明,與活動性結核患者相比,該抗原更易被結核分枝桿菌潛伏感染人群外周血中的淋巴細胞識別[5]。由此可見,Rv2004c能夠誘導實驗動物和人產生特異性免疫反應,具有良好的免疫原性,因此我們選擇此抗原作為研究的靶抗原,應用生物信息學技術對其B細胞、輔助性T淋巴細胞(helper T lymphocyte, Th細胞)及細胞毒性T淋巴細胞(cytotoxic T lymphocyte, CTL)表位進行預測和分析,以期找到優勢抗原表位,為結核潛伏感染診斷及疫苗的研發篩選候選抗原多肽。
1 材料與方法
1.1 Rv2004c蛋白的氨基酸序列(498個氨基酸)
從http://www.tbdb.org/網站獲取。
1.2 Rv2004c蛋白與人類蛋白的同源性進行BLAST分析
采用EXPASY在線軟件(NCBI BLAST2 service)對Rv2004c蛋白氨基酸序列與人類蛋白質的同源性進行分析,具體方法:利用Internet網絡進入EXPASY主頁(http://web.expasy.org/blast/),輸入Rv2004c蛋白的氨基酸序列,選擇蛋白數據庫(Homo sapiens),選定Run BLAST進行比對。
1.3 應用DNAStar軟件預測Rv2004c蛋白序列中可能的B細胞表位和T細胞表位
采用美國DNASTAR公司產品DNAStar軟件包中Protean軟件進行蛋白質分析,綜合采用Gamier-Robson和Chou-Fasman兩種方法預測Rv2004c蛋白二級結構;用Kyte-Doolittle方法根據序列的氨基酸組成預測蛋白質的親水性;用Emini方法預測特定區域位于蛋白質表面的可能性;用Karplus-Schulz方法預測蛋白質骨架區的柔韌性;用Jameson-wolf方法通過聯合現有的蛋白質結構預測方法預測潛在的蛋白質抗原決定簇,然后選取親水性好、表面可能性高、柔韌性好、抗原性強、卷曲和轉角可能性大的區域作為候選B細胞表位,盡量避開α螺旋、β折疊結構。同時DNAStar軟件提供了AMPHI方法預測免疫優勢輔助性T淋巴細胞抗原位點,Rothbard-Taylor方法預測含有特定基序(motif)的潛在T淋巴細胞抗原決定簇,聯合這兩種方法對該蛋白的T細胞表位進行初步預測。
1.4 Rv2004c蛋白的Th表位預測分析
RANKPEP分析:進入RANKPEP主頁http://imed.med.ucm.es/Tools/rankpep.html,選擇主要組織相容性復合體(major histocompatibility complex,MHC,又叫作human leucocyte antigen,HLA)Ⅱ類分子亞型為HLA-DRB1*0101、HLA-DRB1*0301、HLA-DRB1*0401、HLA-DRB1*0701、HLA-DRB1*0801、HLA-DRB1*1101及HLA-DRB1*1501,從輸出結果中選取紅色標記的為候選表位序列;SYFPEITHI超基序法預測Th表位:進入SYFPEITHI主頁http://www.syfpeithi.de/,選擇Epitope prediction進入表位預測界面,主要對HLA-DRB1*0101、HLA-DRB1*0301、HLA-DRB1*0401、HLA-DRB1*0701、HLA-DRB1*1101及HLA-DRB1*1501限制性Th細胞表位進行預測,對分值≥18分的由15個氨基酸殘基構成的序列作進一步分析。統計分析兩種預測軟件的預測結果,選擇這兩種預測程序得分均較高者作為候選Th表位。
1.5 結核分枝桿菌Rv2004c蛋白的CTL表位預測
SYFPEITHI法預測CTL表位:進入SYFPEITHI主頁http://www.syfpeithi.de/,選擇Epitope prediction進入表位預測界面,對Rv2004c的HLA-A*0201、HLA-A*03和HLA-B*0702限制性CTL表位進行遠程預測,對分值≥18分的九肽做進一步分析;BIMAS量化基序法預測CTL表位:進入BIMAS主頁http://www-bimas.cit.nih.gov/molbio/hla_bind/,選定預測抗原肽長度為9,MHC類型為HLA-A0201、HLA-A3和HLA-B7,將氨基酸序列輸入待預測序列框,運行并獲得預測結果;NetCTL預測CTL表位:進入NetCTL主頁http://www.cbs.dtu.dk/services/NetCTL/,選定A2、A3、B7表型,輸入氨基酸序列后進行在線預測,選取綜合預測值(combination, COMB)≥0.75的九肽為潛在CTL表位。最后綜合分析三種預測程序的結果,篩選得分均較高者作為候選CTL表位。
2 結果
2.1 Rv2004c蛋白與人類蛋白的同源性分析
BLAST分析結果顯示,Rv2004c蛋白的氨基酸序列與人類蛋白質NEDD4結合蛋白2相似物1(NEDD4-binding protein 2-like 1)和假想基因CG018亞型CRA-a(Hypothetical gene CG018 isoform CRA-a)相似性較高,主要位于第324~409位氨基酸殘基,但其相似度僅為31%(27/88),占總序列的5.42%(27/498),由此可見,Rv2004c蛋白與人類蛋白的同源性較低,引起交叉反應的概率低,適合作為結核診斷以及抗結核疫苗的候選靶標,值得進一步分析其表位肽。需注意的是,預測篩選表位時盡量避免選取324~409范圍內的序列,以減少出現交叉反應的概率。
2.2 應用DNAStar軟件對Rv2004c蛋白進行B細胞和T細胞表位的預測
如圖 1所示,利用DNAStar軟件包中的Protean軟件,綜合應用Gamier-Robson和Chou-Fasman兩種方法預測Rv2004c蛋白的二級結構,結果顯示:Rv2004c蛋白具有較多的α螺旋和β折疊結構,均勻分布于蛋白全長序列。該蛋白在各α螺旋和β折疊單元之間存在較多長短不一的轉角,主要位于4-9、85-88、134-138、196-199、255-258、266-269、296-299、330-337、361-364、399-402、407-415、449-456、472-475、481-484;在84-85、88-91、270-271、298-300、329-333、400-401、411-413、452-455、480-483位氨基酸殘基存在不規則卷曲。用Kyte-Doolittle方法分析Rv2004c蛋白的親水性,用Emini方法預測蛋白的表面可能性,結果顯示Rv2004c蛋白具有較強的親水性和表面可能性,且二者所在的區域較一致,主要位于1-166、353-363、468-487位氨基酸殘基,提示這些區域暴露于細胞表面的概率較大,作為抗原表位的可能性也較大。Rv2004c蛋白骨架含有較多的柔韌性區域,與抗原指數高的區域分布一致,主要位于5-105、131-239、251-303、328-417、450-488氨基酸殘基,提示該蛋白肽鏈的柔韌性較大,發生扭曲、折疊的概率較高,可能具有較強的抗原性。

注:
綜合分析選取氨基酸序列親水性高、表面可能性好、抗原性高及柔韌性好的轉角或無規則卷曲區域作為候選B細胞抗原表位,位于1-12、53-60、84-91、98-108、130-146、227-239、250-258、296-302、449-457、471-488氨基酸殘基,其中前五個多肽親水性指數比較高,暴露于表面的概率較大,肽鏈骨架柔韌性較大,發生扭曲、折疊的概率較高,可能是B細胞的優勢抗原表位。
應用DNAStar軟件包中的AMPHI方法預測Rv2004c蛋白的Th細胞表位主要位于75-89、117-132、148-160、171-181、220-240、340-347氨基酸殘基,Rothbard-Taylor方法預測含有特定基序的潛在T細胞表位主要位于118-129、178-185、301-308、341-347、440-449氨基酸殘基,初步預測Rv2004c蛋白具有較多的T細胞表位。
2.3 Rv2004c蛋白的Th細胞表位預測結果
應用兩種Th表位分析軟件對Rv2004c蛋白的HLA-DRB1*0101、HLA-DRB1*0301、HLA-DRB1*0401、HLA-DRB1*0701、HLA-DRB1*0801、HLA-DRB1*1101及HLA-DRB1*1501限制性Th細胞表位進行預測,獲得較多9個或15個氨基酸長度的潛在Th細胞表位,分別統計兩種方法預測的分值較高且有候選意義的每一種HLA亞型相應的表位數目情況,結果如表 1所示。綜合分析兩個軟件的預測結果,篩選出針對某個表型分值均較高的氨基酸序列作為候選Th表位,結果如表 2所示。


2.4 Rv2004c蛋白的CTL表位預測分析結果
將Rv2004c蛋白序列輸入3種CTL表位分析軟件,選擇HLA-A2、HLA-A3和HLA-B7三種MHC限制類型,預測9個氨基酸長度的CTL表位,如表 3所示列出針對某種HLA表型由3種方法預測的分值較高的潛在CTL表位數目情況;綜合考慮3種預測軟件的預測結果,針對每一種表型,篩選出分值均較高的多肽序列作為候選CTL表位(如表 4所示)。


3 討論
近年來,隨著耐藥結核病的出現和艾滋病的蔓延,結核病的發病率和病死率呈上升趨勢,而結核分枝桿菌潛伏感染是結核病的主要來源,因此針對潛伏感染的診斷試劑和治療性疫苗的研發一直備受廣大防癆工作者的關注。基于抗原表位的研究成為近年來結核病診斷和治療方面的新熱點[6-7],而表位的快速有效篩選是關鍵。應用生物信息學的技術手段進行表位預測可極大地減少實驗工作量,節約研究經費,加快研究進展[8],因此已受到越來越多的研究者的青睞。
蛋白抗原的二級結構與B細胞表位關系密切[9]。維系α螺旋、β折疊結構的化學鍵鍵能較高,結構規則不易變形,常處于蛋白質內部,較難結合抗體,一般不作為抗原表位[10],而β轉角或無規則卷曲結構松散,易于扭曲、變形,常出現在蛋白質的表面,有利于與抗體嵌合,常含有B細胞優勢表位[11]。通過DNAStar軟件分析,我們發現Rv2004c蛋白整體親水性和表面可能性較強,β轉角結構較多且分布均勻,提示其暴露于表面的概率較大,作為B細胞抗原的可能性也較大,這與Forero等[4]的研究是一致的。本研究從存在β轉角和無規則卷曲結構的序列中篩選親水性、柔韌性和表面可能性均較高的10條序列作為候選B細胞表位,其中130-146氨基酸序列被Forero等[4]的實驗所驗證,與能引起新西蘭兔體液免疫的Rv2004c-7(121-140氨基酸殘基)序列有部分一致。由于考慮的方面較多,DNAStar軟件預測的B細胞表位相對準確性較高,但本文預測的1-12、53-60、84-91等9個B細胞表位未被Forero等[4]證實,這可能與Forero等[4]設計的非重疊多肽段過長,導致實驗驗證略失精確有關,當然也可能與預測方法自身局限性有關[10]。
T細胞免疫在抗結核免疫中發揮著重要作用[12-13]。Hozumi等[5]發現,在日本人中,Rv2004c能在潛伏感染個體中誘導產生較之活動性結核患者中更高水平的γ-干擾素,提示Rv2004c蛋白有可能是一種較好的T細胞抗原。我們應用DNAStar軟件對Rv2004c蛋白的T細胞表位進行初步預測,發現該蛋白有較多潛在的T細胞表位,但DNAStar軟件預測T細胞表位的參數較少,也不能進一步區分Th細胞表位和CTL表位。因此,本研究聯合應用其它表位預測軟件進一步預測T細胞表位,以提高預測的準確度和特異性。
RANKPEP和SYFPEITHI是目前預測Th表位效果較好的在線工具,我們選取了HLA-DRB1*0101、HLA-DRB1*0301、HLA-DRB1*0401、HLA-DRB1*0701、HLA-DRB1*0801、HLA-DRB1*1101及HLA-DRB1*1501共7個中國人群常見的MHCⅡ分子亞型[14],用兩種Th表位分析軟件對Rv2004c進行預測,結果發現針對不同MHC-Ⅱ類等位基因的Th表位數目相差比較顯著,如表 1所示針對HLA-DRB1*0401及HLA-DRB1*0101表型的表位數目最多,分值較高;針對HLA-DRB*0301和HLA-DRB*0801表型的表位數目最少。通過分析表 2中列出的候選Th表位,發現得分較高的候選表位主要集中在200位氨基酸殘基之后,其中279-293位氨基酸殘基同時是HLA-DRB1*0401、HLA-DRB1*0101、HLA-DRB1*0801、HLA-DRB1*1501、HLA-DRB1*0101 5種MHC亞型的限制性表位,103-117位氨基酸殘基同時是HLA-DRB1*0401和HLA-DRB1*0101兩種MHC亞型的限制性表位,282-296同時是HLA-DRB1*0401和HLA-DRB1*0701的限制性表位,這3個氨基酸序列或許可以誘導針對不同HLA基因位點的Th細胞反應,從而拓寬免疫反應人群。
SYFPEITHI方法是根據基序方案設計的算法,BIMAS方法包含了根據MHC/肽復合物分裂半衰期預測各種HLA限制性表位的方案,近年來,這兩種算法都成功地用于大范圍抗原CTL表位的鑒定[15-16]。在此基礎上,NetCTL方法綜合蛋白酶體裂解位點、TAP轉運肽和MHC類分子親和肽三種預測,充分考慮抗原肽提呈效率因素,彌補了前兩者的不足,應用這三種方法綜合進行分析可以減少預測結果的數量,提高表位預測的準確率,減少后續實驗驗證的表位數目[17-18]。HLA-A0201(45.9%)、HLA-A03(52.7%)和HLA-B7(43.0%)是我國HLA基因分布頻率較高的等位基因[19-20],因此,我們篩選HLA-A2、HLA-A3和HLA-B7 3個超型的限制性CTL表位對于中國人群更具有現實意義。經過預測和分析發現Rv2004c蛋白的CTL表位集中于第200-400位氨基酸之間,這與Th細胞表位的預測結果是一致的,且與HLA-A3和HLA-B7兩種表型相比較,針對HLA-A2表型的表位數目最多。
綜上所述,結核分枝桿菌Rv2004c含有較多潛在T細胞和B細胞抗原表位,可為下一步尋找新的抗原靶位、進行結核病的早期快速診斷及候選疫苗表位的篩選奠定基礎。我們將進一步對篩選得到的候選T細胞表位進行體外、體內試驗的驗證。
引言
結核病是全世界范圍內危害人類健康的主要傳染性疾病之一,是全世界由單一致病菌導致死亡最多的疾病,每年約導致150萬人死亡和超過900萬的新發結核病病例[1]。據世界衛生組織統計,全世界約有1/3的人感染過結核分枝桿菌,大多數呈潛伏感染狀態,潛伏感染者如不進行治療,有5%~10%的人會在其一生中發展成活動性結核病[2],結核分枝桿菌潛伏感染是結核病的重要來源,因此結核分枝桿菌潛伏感染的早期診斷和有效治療是結核病防治工作的重要措施之一。
Rv2004c是與缺氧相關的結核分枝桿菌潛伏感染相關抗原之一[3],是一種保守的假想蛋白。Forero等[4]用25條含20個氨基酸殘基的Rv2004c合成肽聚合物免疫新西蘭兔,應用免疫印跡技術在兔血清中檢測到特異性抗體。另有研究表明,與活動性結核患者相比,該抗原更易被結核分枝桿菌潛伏感染人群外周血中的淋巴細胞識別[5]。由此可見,Rv2004c能夠誘導實驗動物和人產生特異性免疫反應,具有良好的免疫原性,因此我們選擇此抗原作為研究的靶抗原,應用生物信息學技術對其B細胞、輔助性T淋巴細胞(helper T lymphocyte, Th細胞)及細胞毒性T淋巴細胞(cytotoxic T lymphocyte, CTL)表位進行預測和分析,以期找到優勢抗原表位,為結核潛伏感染診斷及疫苗的研發篩選候選抗原多肽。
1 材料與方法
1.1 Rv2004c蛋白的氨基酸序列(498個氨基酸)
從http://www.tbdb.org/網站獲取。
1.2 Rv2004c蛋白與人類蛋白的同源性進行BLAST分析
采用EXPASY在線軟件(NCBI BLAST2 service)對Rv2004c蛋白氨基酸序列與人類蛋白質的同源性進行分析,具體方法:利用Internet網絡進入EXPASY主頁(http://web.expasy.org/blast/),輸入Rv2004c蛋白的氨基酸序列,選擇蛋白數據庫(Homo sapiens),選定Run BLAST進行比對。
1.3 應用DNAStar軟件預測Rv2004c蛋白序列中可能的B細胞表位和T細胞表位
采用美國DNASTAR公司產品DNAStar軟件包中Protean軟件進行蛋白質分析,綜合采用Gamier-Robson和Chou-Fasman兩種方法預測Rv2004c蛋白二級結構;用Kyte-Doolittle方法根據序列的氨基酸組成預測蛋白質的親水性;用Emini方法預測特定區域位于蛋白質表面的可能性;用Karplus-Schulz方法預測蛋白質骨架區的柔韌性;用Jameson-wolf方法通過聯合現有的蛋白質結構預測方法預測潛在的蛋白質抗原決定簇,然后選取親水性好、表面可能性高、柔韌性好、抗原性強、卷曲和轉角可能性大的區域作為候選B細胞表位,盡量避開α螺旋、β折疊結構。同時DNAStar軟件提供了AMPHI方法預測免疫優勢輔助性T淋巴細胞抗原位點,Rothbard-Taylor方法預測含有特定基序(motif)的潛在T淋巴細胞抗原決定簇,聯合這兩種方法對該蛋白的T細胞表位進行初步預測。
1.4 Rv2004c蛋白的Th表位預測分析
RANKPEP分析:進入RANKPEP主頁http://imed.med.ucm.es/Tools/rankpep.html,選擇主要組織相容性復合體(major histocompatibility complex,MHC,又叫作human leucocyte antigen,HLA)Ⅱ類分子亞型為HLA-DRB1*0101、HLA-DRB1*0301、HLA-DRB1*0401、HLA-DRB1*0701、HLA-DRB1*0801、HLA-DRB1*1101及HLA-DRB1*1501,從輸出結果中選取紅色標記的為候選表位序列;SYFPEITHI超基序法預測Th表位:進入SYFPEITHI主頁http://www.syfpeithi.de/,選擇Epitope prediction進入表位預測界面,主要對HLA-DRB1*0101、HLA-DRB1*0301、HLA-DRB1*0401、HLA-DRB1*0701、HLA-DRB1*1101及HLA-DRB1*1501限制性Th細胞表位進行預測,對分值≥18分的由15個氨基酸殘基構成的序列作進一步分析。統計分析兩種預測軟件的預測結果,選擇這兩種預測程序得分均較高者作為候選Th表位。
1.5 結核分枝桿菌Rv2004c蛋白的CTL表位預測
SYFPEITHI法預測CTL表位:進入SYFPEITHI主頁http://www.syfpeithi.de/,選擇Epitope prediction進入表位預測界面,對Rv2004c的HLA-A*0201、HLA-A*03和HLA-B*0702限制性CTL表位進行遠程預測,對分值≥18分的九肽做進一步分析;BIMAS量化基序法預測CTL表位:進入BIMAS主頁http://www-bimas.cit.nih.gov/molbio/hla_bind/,選定預測抗原肽長度為9,MHC類型為HLA-A0201、HLA-A3和HLA-B7,將氨基酸序列輸入待預測序列框,運行并獲得預測結果;NetCTL預測CTL表位:進入NetCTL主頁http://www.cbs.dtu.dk/services/NetCTL/,選定A2、A3、B7表型,輸入氨基酸序列后進行在線預測,選取綜合預測值(combination, COMB)≥0.75的九肽為潛在CTL表位。最后綜合分析三種預測程序的結果,篩選得分均較高者作為候選CTL表位。
2 結果
2.1 Rv2004c蛋白與人類蛋白的同源性分析
BLAST分析結果顯示,Rv2004c蛋白的氨基酸序列與人類蛋白質NEDD4結合蛋白2相似物1(NEDD4-binding protein 2-like 1)和假想基因CG018亞型CRA-a(Hypothetical gene CG018 isoform CRA-a)相似性較高,主要位于第324~409位氨基酸殘基,但其相似度僅為31%(27/88),占總序列的5.42%(27/498),由此可見,Rv2004c蛋白與人類蛋白的同源性較低,引起交叉反應的概率低,適合作為結核診斷以及抗結核疫苗的候選靶標,值得進一步分析其表位肽。需注意的是,預測篩選表位時盡量避免選取324~409范圍內的序列,以減少出現交叉反應的概率。
2.2 應用DNAStar軟件對Rv2004c蛋白進行B細胞和T細胞表位的預測
如圖 1所示,利用DNAStar軟件包中的Protean軟件,綜合應用Gamier-Robson和Chou-Fasman兩種方法預測Rv2004c蛋白的二級結構,結果顯示:Rv2004c蛋白具有較多的α螺旋和β折疊結構,均勻分布于蛋白全長序列。該蛋白在各α螺旋和β折疊單元之間存在較多長短不一的轉角,主要位于4-9、85-88、134-138、196-199、255-258、266-269、296-299、330-337、361-364、399-402、407-415、449-456、472-475、481-484;在84-85、88-91、270-271、298-300、329-333、400-401、411-413、452-455、480-483位氨基酸殘基存在不規則卷曲。用Kyte-Doolittle方法分析Rv2004c蛋白的親水性,用Emini方法預測蛋白的表面可能性,結果顯示Rv2004c蛋白具有較強的親水性和表面可能性,且二者所在的區域較一致,主要位于1-166、353-363、468-487位氨基酸殘基,提示這些區域暴露于細胞表面的概率較大,作為抗原表位的可能性也較大。Rv2004c蛋白骨架含有較多的柔韌性區域,與抗原指數高的區域分布一致,主要位于5-105、131-239、251-303、328-417、450-488氨基酸殘基,提示該蛋白肽鏈的柔韌性較大,發生扭曲、折疊的概率較高,可能具有較強的抗原性。

注:
綜合分析選取氨基酸序列親水性高、表面可能性好、抗原性高及柔韌性好的轉角或無規則卷曲區域作為候選B細胞抗原表位,位于1-12、53-60、84-91、98-108、130-146、227-239、250-258、296-302、449-457、471-488氨基酸殘基,其中前五個多肽親水性指數比較高,暴露于表面的概率較大,肽鏈骨架柔韌性較大,發生扭曲、折疊的概率較高,可能是B細胞的優勢抗原表位。
應用DNAStar軟件包中的AMPHI方法預測Rv2004c蛋白的Th細胞表位主要位于75-89、117-132、148-160、171-181、220-240、340-347氨基酸殘基,Rothbard-Taylor方法預測含有特定基序的潛在T細胞表位主要位于118-129、178-185、301-308、341-347、440-449氨基酸殘基,初步預測Rv2004c蛋白具有較多的T細胞表位。
2.3 Rv2004c蛋白的Th細胞表位預測結果
應用兩種Th表位分析軟件對Rv2004c蛋白的HLA-DRB1*0101、HLA-DRB1*0301、HLA-DRB1*0401、HLA-DRB1*0701、HLA-DRB1*0801、HLA-DRB1*1101及HLA-DRB1*1501限制性Th細胞表位進行預測,獲得較多9個或15個氨基酸長度的潛在Th細胞表位,分別統計兩種方法預測的分值較高且有候選意義的每一種HLA亞型相應的表位數目情況,結果如表 1所示。綜合分析兩個軟件的預測結果,篩選出針對某個表型分值均較高的氨基酸序列作為候選Th表位,結果如表 2所示。


2.4 Rv2004c蛋白的CTL表位預測分析結果
將Rv2004c蛋白序列輸入3種CTL表位分析軟件,選擇HLA-A2、HLA-A3和HLA-B7三種MHC限制類型,預測9個氨基酸長度的CTL表位,如表 3所示列出針對某種HLA表型由3種方法預測的分值較高的潛在CTL表位數目情況;綜合考慮3種預測軟件的預測結果,針對每一種表型,篩選出分值均較高的多肽序列作為候選CTL表位(如表 4所示)。


3 討論
近年來,隨著耐藥結核病的出現和艾滋病的蔓延,結核病的發病率和病死率呈上升趨勢,而結核分枝桿菌潛伏感染是結核病的主要來源,因此針對潛伏感染的診斷試劑和治療性疫苗的研發一直備受廣大防癆工作者的關注。基于抗原表位的研究成為近年來結核病診斷和治療方面的新熱點[6-7],而表位的快速有效篩選是關鍵。應用生物信息學的技術手段進行表位預測可極大地減少實驗工作量,節約研究經費,加快研究進展[8],因此已受到越來越多的研究者的青睞。
蛋白抗原的二級結構與B細胞表位關系密切[9]。維系α螺旋、β折疊結構的化學鍵鍵能較高,結構規則不易變形,常處于蛋白質內部,較難結合抗體,一般不作為抗原表位[10],而β轉角或無規則卷曲結構松散,易于扭曲、變形,常出現在蛋白質的表面,有利于與抗體嵌合,常含有B細胞優勢表位[11]。通過DNAStar軟件分析,我們發現Rv2004c蛋白整體親水性和表面可能性較強,β轉角結構較多且分布均勻,提示其暴露于表面的概率較大,作為B細胞抗原的可能性也較大,這與Forero等[4]的研究是一致的。本研究從存在β轉角和無規則卷曲結構的序列中篩選親水性、柔韌性和表面可能性均較高的10條序列作為候選B細胞表位,其中130-146氨基酸序列被Forero等[4]的實驗所驗證,與能引起新西蘭兔體液免疫的Rv2004c-7(121-140氨基酸殘基)序列有部分一致。由于考慮的方面較多,DNAStar軟件預測的B細胞表位相對準確性較高,但本文預測的1-12、53-60、84-91等9個B細胞表位未被Forero等[4]證實,這可能與Forero等[4]設計的非重疊多肽段過長,導致實驗驗證略失精確有關,當然也可能與預測方法自身局限性有關[10]。
T細胞免疫在抗結核免疫中發揮著重要作用[12-13]。Hozumi等[5]發現,在日本人中,Rv2004c能在潛伏感染個體中誘導產生較之活動性結核患者中更高水平的γ-干擾素,提示Rv2004c蛋白有可能是一種較好的T細胞抗原。我們應用DNAStar軟件對Rv2004c蛋白的T細胞表位進行初步預測,發現該蛋白有較多潛在的T細胞表位,但DNAStar軟件預測T細胞表位的參數較少,也不能進一步區分Th細胞表位和CTL表位。因此,本研究聯合應用其它表位預測軟件進一步預測T細胞表位,以提高預測的準確度和特異性。
RANKPEP和SYFPEITHI是目前預測Th表位效果較好的在線工具,我們選取了HLA-DRB1*0101、HLA-DRB1*0301、HLA-DRB1*0401、HLA-DRB1*0701、HLA-DRB1*0801、HLA-DRB1*1101及HLA-DRB1*1501共7個中國人群常見的MHCⅡ分子亞型[14],用兩種Th表位分析軟件對Rv2004c進行預測,結果發現針對不同MHC-Ⅱ類等位基因的Th表位數目相差比較顯著,如表 1所示針對HLA-DRB1*0401及HLA-DRB1*0101表型的表位數目最多,分值較高;針對HLA-DRB*0301和HLA-DRB*0801表型的表位數目最少。通過分析表 2中列出的候選Th表位,發現得分較高的候選表位主要集中在200位氨基酸殘基之后,其中279-293位氨基酸殘基同時是HLA-DRB1*0401、HLA-DRB1*0101、HLA-DRB1*0801、HLA-DRB1*1501、HLA-DRB1*0101 5種MHC亞型的限制性表位,103-117位氨基酸殘基同時是HLA-DRB1*0401和HLA-DRB1*0101兩種MHC亞型的限制性表位,282-296同時是HLA-DRB1*0401和HLA-DRB1*0701的限制性表位,這3個氨基酸序列或許可以誘導針對不同HLA基因位點的Th細胞反應,從而拓寬免疫反應人群。
SYFPEITHI方法是根據基序方案設計的算法,BIMAS方法包含了根據MHC/肽復合物分裂半衰期預測各種HLA限制性表位的方案,近年來,這兩種算法都成功地用于大范圍抗原CTL表位的鑒定[15-16]。在此基礎上,NetCTL方法綜合蛋白酶體裂解位點、TAP轉運肽和MHC類分子親和肽三種預測,充分考慮抗原肽提呈效率因素,彌補了前兩者的不足,應用這三種方法綜合進行分析可以減少預測結果的數量,提高表位預測的準確率,減少后續實驗驗證的表位數目[17-18]。HLA-A0201(45.9%)、HLA-A03(52.7%)和HLA-B7(43.0%)是我國HLA基因分布頻率較高的等位基因[19-20],因此,我們篩選HLA-A2、HLA-A3和HLA-B7 3個超型的限制性CTL表位對于中國人群更具有現實意義。經過預測和分析發現Rv2004c蛋白的CTL表位集中于第200-400位氨基酸之間,這與Th細胞表位的預測結果是一致的,且與HLA-A3和HLA-B7兩種表型相比較,針對HLA-A2表型的表位數目最多。
綜上所述,結核分枝桿菌Rv2004c含有較多潛在T細胞和B細胞抗原表位,可為下一步尋找新的抗原靶位、進行結核病的早期快速診斷及候選疫苗表位的篩選奠定基礎。我們將進一步對篩選得到的候選T細胞表位進行體外、體內試驗的驗證。