使用树莓派计算机比较沙眼衣原体和拟衣原体阿米巴共生菌的蛋白质编码基因含量
摘要
背景:为了展示低成本计算机——树莓派在生物信息学方面的功能,本文对衣原体门中的两个物种的蛋白质编码基因含量进行了比较:沙眼衣原体(一种常见的人类性传播感染病原体)和候选属拟衣原体阿米巴共生菌(一种最近发现的阿米巴内共生体)。鉴定物种特异性蛋白以及蛋白质家族的差异,有助于深入了解这两个物种独特表型的形成机制。
结果:使用树莓派计算机,预测了两种物种 C. trachomatis 和 P. amoebophila 之间的基于序列相似性的蛋白质家族,并统计了其成员数量。例如,有九个仅存在于 C. trachomatis 中的多蛋白家族,132个仅存在于 P. amoebophila 中的多蛋白家族,以及一个在两者中均具有多个拷贝的家族。大多数仅存在于 C. trachomatis 中的家族为多态性外膜蛋白。此外,还发现了多个缺乏功能注释的蛋白家族。预测的功能相互作用表明,其中一个家族可能参与外切脱氧核糖核酸酶V复合物。
结论:树莓派计算机足以胜任此类规模的比较基因组学项目。仅存在于 P. amoebophila 中的蛋白质家族可能为研究宿主‐内共生体相互作用提供基础。然而,应纳入更多物种;并且需要进一步的实验研究来确定未知或假定蛋白质的功能。在 C. trachomatis 中发现了多个外膜蛋白,提示其在宿主免疫逃逸中的重要性。酪氨酸转运蛋白家族在两个物种间共有,在 C. trachomatis 中有四个蛋白,在 P. amoebophila 中有两个。共有的蛋白质家族可为发现针对衣原体门的广谱药物提供起点。
背景
树莓派 [1] 是近期涌现的一系列小型通用计算机之一,以低成本和极低的电力需求提供适度的计算能力 [2]。它由树莓派基金会于2012年发布,主要面向中小学教育。树莓派的各种型号至今已累计售出超过500万台 [4],其应用范围也远远超出了最初的设想。例如,树莓派被用于大学层面的生物信息学 [5] 和放射学 [6] 教学,结合便携式、通用串行总线供电的牛津纳米孔 MinION 测序仪用于现场基因组学 [7],以及真核基因组组装 [8],还可用于构建集群系统 [9]。树莓派未来可能在临床诊断中发挥作用 [10]。像树莓派这样的计算机可以提供一种在偏远、农村或受疫情影响的地区进行强大分析的廉价可靠平台。
我们进行了一项初步的比较基因组学研究,该研究在树莓派上完成,是2014年圣安德鲁斯大学 BL4273 生物学家的生物信息学课程模块的课程作业。(BL4273 教学材料的开放获取版本已作为 4273π [5] 的一部分发布)。由于仅使用了两个物种,我们的研究范围有限。然而,本研究采用了当前典型的生物信息学研究软件,并提出了未来研究的方向。我们的研究和 [11] 证明了树莓派适用于比较基因组学领域的生物信息学研究。
我们比较了沙眼衣原体和候选属拟衣原体阿米巴共生菌的基因组。衣原体是衣原体门内的一个专性胞内细菌属。环境衣原体与现在的人类致病性衣原体进化分支大约在7亿年前分离 [12]。其中一种人类病原体是 C. trachomatis 。沙眼衣原体感染是最常见的性传播疾病之一,若不加以治疗,可导致沙眼,引起包括失明、盆腔炎性疾病、慢性盆腔疼痛、异位妊娠和附睾炎在内的多种疾病 [13]。
相关的内共生体 Candidatus Protochlamydia amoebophilia 被发现生活在阿米巴原虫 Acanthamoeba 。在 P. amoebophilia 的基因组中,已鉴定出编码 III 型和 IV 型分泌系统的基因,但尚未发现效应分子 [14]。沙眼衣原体具有退化基因组,缺乏人体中存在的多种代谢通路相关基因。例如, P. amoebophilia 拥有全部的三羧酸循环基因,而大多数致病性衣原体缺少完整的代谢通路 [12]。此外,致病性衣原体还缺乏其他代谢和生物合成基因,例如某些氨基酸合成基因 [15]。
在这项对两个物种的初步研究中,我们希望识别出仅存在于其中一个或两个物种中的基因群,确定其功能,并为后续的 Chlamydia 研究提供指导。
沙眼衣原体和 P. amoebophilia 的基因组分别编码 917 和 2023 种蛋白质。其中,917 种蛋白质中有 224 种为沙眼衣原体独有;2023 种蛋白质中有 1129 种为 P. amoebophilia 独有。在两个物种之间,共发现 602 个推测的直系同源基因、30 个沙眼衣原体的推测种内旁系同源基因以及 2042 个 P. amoebophilia 的推测种内旁系同源基因,还发现了 18 个推测的共直系同源基因(定义见门迪维尔·拉莫斯和费勒 [16];本研究中基于序列相似性进行预测)。总共预测出 741 个基于序列相似性的蛋白质家族(表1)。蛋白质家族成员归属(家族编号为任意编号)见附加文件1。序列比对使用 BLOSUM62 和 BLOSUM45 替换矩阵进行,结果仅有细微差异(表1;附加文件2、3、4和5)。后续分析采用基于 BLOSUM62 的结果(附加文件1)。
仅存在于 P. amoebophilia 中的蛋白质家族包括 F 框蛋白以及多种催化短 DNA 片段移动的转座酶。此外,与 C. trachomatis 中的单个基因相比,毒力质粒整合酶、伴侣素、重金属转运蛋白和推测的抗生素转运蛋白在该物种中存在多个拷贝(表2)。仅存在于 C. trachomatis 中的则有五类外膜蛋白,这些蛋白被认为参与宿主逃逸策略,此外还包括 III 型分泌系统效应蛋白。
酪氨酸转运蛋白在两个物种中均以多个拷贝存在,表明其功能至关重要,因为这两个物种都缺乏酪氨酸生物合成所需的基因(表2)。最后,利用基因组背景、共表达和文本挖掘数据,通过 STRING 预测了一些未识别或假设性蛋白质的功能相互作用(图1)。我们认为这些预测的相互作用是进一步研究的基础,而非确定性结果;事实上,其中许多相互作用在 STRING 的较新版本中并不存在。尽管存在这些不确定性,但在两组相互作用蛋白中均出现的(推测的)外脱氧核糖核酸酶Vα链仍具有提示意义。
本研究在 Horn 等人对衣原体的比较基础上展开 [12],他们鉴定了毒力因子、转座酶和酪氨酸转运蛋白等感兴趣的蛋白质。我们量化了拷贝数的差异,并提出了未识别蛋白质的可能功能。
讨论与结论
本研究的范围有限。例如,当某种蛋白质仅存在于成对物种中的某一个时,该蛋白质可能在更广泛的物种(未包含在本研究中的物种)中分布。此外,仅通过两个物种的研究无法确定拷贝或家族获得或丢失的方向,而需要将基因或蛋白质家族的系统发育与物种的系统发育进行比较(例如 [18])。然而,当在成对物种研究中拷贝数存在变异时,这可能为未来的研究提供了有用的方向。
由于宿主特异性不同,阿米巴嗜吞噬菌和沙眼衣原体的蛋白质组之间存在差异是预料之中的。我们的分析鉴定出以下蛋白质家族:仅存在于沙眼衣原体中的蛋白质家族;在阿米巴嗜吞噬菌中含有多个成员而在沙眼衣原体中仅有一个成员的蛋白质家族;在沙眼衣原体中含有多个成员而在阿米巴嗜吞噬菌中仅有一个成员的蛋白质家族;以及一个在两个物种中均含有多个成员的家族。后者这一家族在沙眼衣原体中有两个成员,在阿米巴嗜吞噬菌中有四个成员,属于酪氨酸特异性转运蛋白。
为了研究酪氨酸转运蛋白的重要性,应检测其他衣原体物种是否存在该蛋白家族。如果在所有衣原体中均以多个拷贝存在,则可作为开发广谱药物的起点,使其对整个衣原体有效。底物设计的一个可能基础是酪氨酸类似物,其仅不可逆地结合衣原体酪氨酸转运蛋白,从而使其失活。这类似于各种核苷类逆转录酶抑制剂抗病毒药物的作用机制,这些药物为核苷酸类似物,例如叠氮胸苷 [19]。通过靶向在物种间共享的整个蛋白家族,所开发的任何药物均可在整个衣原体门中发挥作用。
一种物种特有的蛋白质包括多种沙眼衣原体特有的外膜蛋白以及阿米巴嗜吞噬菌特有的多种转座酶。大量转座酶的存在可以解释在阿米巴嗜吞噬菌中观察到的广泛基因组重排 [14]。进一步研究阿米巴嗜吞噬菌特有的阿米巴嗜吞噬菌蛋白质可能揭示新的宿主‐寄生虫相互作用,例如为何仅在代谢活跃状态下才会在人 HEp‐2 细胞中引发细胞凋亡 [14]。此外,沙眼衣原体中存在多种多态性外膜蛋白可能是宿主免疫系统逃逸的一种机制,尤其是在初始感染期间 [20]。利用 STRING 预测物理和功能伙伴的方法可应用于许多尚未发现与其他序列具有已知同源性的基因组。此外,未知蛋白质家族的大量存在是理解宿主‐寄生关系的一大障碍。对这些未知家族的表征将有助于建模其他多种细菌内共生病原体。
尽管我们的研究没有深入比较衣原体门的四个主要科——正如在 [21] 中所做的那样——但它确实提供了对人类致病性衣原体与新发现的内共生体之间遗传和生物学差异的洞察。它还起到了概念验证的作用,表明在生物信息学研究环境中,使用低成本的树莓派计算机来比较全基因组蛋白质集合是成功的。树莓派在运行 BLAST、OrthoMCL 以及相关软件和后续处理 Perl 脚本时表现得毫无问题。由于树莓派 Model B 在渲染网页方面较慢,为方便起见,使用台式计算机通过网页访问 STRING 数据库(参见下方“方法”)。然而,我们研究中未使用的较新的树莓派2代版本将能更快地显示网页 [22]。人们也可以通过存储 STRING 的本地副本,从而绕过使用网页的必要性。
这在没有互联网接入的地区尤其有用。
应进一步研究树莓派或类似设备在贫困地区或偏远地区作为识别病原体工具的潜在用途 [10]。基于树莓派的低成本基因组比较应用可包括在农村地区快速识别病毒突变,以及在饥荒地区快速识别农作物霉菌或害虫。
使生物信息学这一学科普及化也具有巨大潜力。生物信息学拥有丰富的免费软件和序列数据,我们的研究及许多其他研究都使用了这些资源。这些资源为普及化提供了极好的起点,但尚不足够。传统上阻碍生物信息学更广泛采用的因素之一是硬件成本。而像树莓派这样性能相对强大且价格低廉的计算机,能够直接解决这一障碍。目前仍然存在的障碍是缺乏培训 [23, 24]。免费的生物信息学教育材料和项目正在不断增加培训机会(例如 [5, 25, 26];更多参考文献见 [27])。随着这些剩余障碍的消除,我们预测生物信息学研究将得到扩展,不仅专业人员,业余爱好者和学生,包括在低收入国家的研究者也将参与其中。我们将这一愿景称为“普及型生物信息学”,这一概念在文献中已有提及 [28]——但其本身尚未实现普及。
使用树莓派计算机比较沙眼衣原体和拟衣原体阿米巴共生菌的蛋白质编码基因含量
方法
生物信息学软件在配备512MB内存的树莓派 Model B 上运行,操作系统为 Raspbian GNU/Linux 操作系统的 4273π 版本 [5]。沙眼衣原体 A/HAR-13 和候选属 P. amoebophila UWE25 的全基因组蛋白质序列集从 Ensembl 基因组数据库(http://ensemblgenomes.org)下载(附加文件6和7)。基于序列相似性的蛋白质家族通过 MCL [30] 和 OrthoMCL [31] 对 BLASTP 序列相似性搜索结果进行后处理(默认参数)来预测 [32]。分别基于 BLOSUM62(附加文件2、3和8)和 BLOSUM45 替换矩阵(附加文件4、5和9)进行了独立预测。由于两者结果之间未观察到显著差异(表1),后续分析采用 BLOSUM62 所得的分组结果。使用自定义 Perl 脚本对分组进行计数和分类(表2)(附加文件10和11)。计数结果通过独立编写的脚本进行了验证 [11]。
蛋白质功能通过手动整合其 Fasta 标题中的蛋白质名称,或通过从 UniProtKB 数据库进行基于同源性的功能信息转移来确定 [33]。还分析了 P. amoebophila 特有的五个最大的家族。结果如表2所示。星号(*)表示其中大多数为未表征蛋白质的家族。
对于 P. amoebophila 或 沙眼衣原体 蛋白质组中大多数为推测的未表征蛋白质的组,其名称通过以下同源性方法获得。如果某组中大多数为推测的未表征蛋白质,则使用该组文本文件中的前三个蛋白质 ID 作为查询序列,在 UniProtKB 中进行 BLASTP 搜索 [33]。如果这三个蛋白质具有功能相似的同源物,则认为这些未表征蛋白质也具有相同功能。如果某个序列未找到同源物,则继续分析该组中的下一个蛋白质,直到达成三重一致结果。在一种情况下,第40组(表2),使用 BLAST 未能找到同源物。为了预测蛋白质功能,将其提交至 STRING 数据库(该数据库包含来自基因组背景、高通量实验和共表达的数据),并使用台式计算机进行分析。为简化网络图,仅报告得分最高的五个直接互作蛋白(图1)。
缩写
叠氮胸苷:叠氮胸苷;BLOSUM:模块替换矩阵; 沙眼衣原体 : 沙眼衣原体 ; 拟衣原体阿米巴共生菌 :候选属 拟衣原体阿米巴共生菌 ;RAM:随机存取存储器;USB:通用串行总线。
作者贡献
本文基于 JFR 作为 BL4273 生物学家的生物信息学课程作业提交的作品,该课程由圣安德鲁斯大学的 DB 协调。JFR 完成了分析。JFR 和 DB 撰写了手稿。两位作者均阅读并批准了最终手稿。
作者信息
- 英国圣安德鲁斯大学生物学院,圣安德鲁斯,法夫,KY16 9TH。
- 现地址:英国约克大学生物学系,温特沃思路,约克,YO10 5DD。
97

被折叠的 条评论
为什么被折叠?



