天津大学计算机学院杜朴风,PseAAC-Builder 2.0 一种从蛋白质序列数据快速生成伪氨基酸组分表示的软件.doc...

本文介绍了一个名为PseAAC-Builder2.0的软件,该软件能快速地将大规模蛋白质序列数据转化为伪氨基酸组分表示,其计算效率比现有工具高约100倍,适用于生物信息学领域的研究。此方法在蛋白质结构和功能预测中具有重要意义,为机器学习算法提供了有效输入。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

文档介绍:

PseAAC-Builder2.0:一种从蛋白质序列数据快速生成伪氨基酸组分表示的软件#杜朴风*5101520(天津大学,计算机科学与技术学院)摘要:本文描述了一种用于快速的将大规模蛋白质序列数据转换成伪氨基酸组分的软件。这一软件称为PseAAC-Builder2.0.这一软件比现有软件具有更高的灵活性和可扩展性,也具有更高的计算效率。实际测试表明这一软件比现有软件快100倍左右。这种计算效率在相关研究中是非常需要的。关键词:生物信息学;伪氨基酸组分;快速计算中图分类号:TP399PseAAC-Builder2.0:eneratingpseudo-positionefficientlyfromproteinsequencesDUPufeng(puterScienceandTechnology,TianjinUniversity)Abstract:Inthispaper,anovelsoftwaretool,whichiscalledPseAAC-Builder2.0,wasintroduced.Thissoftwarecanconvertlargescaleproteinsequencedatasettopseudo-positions.putationalefficiencyisabout100timesofexistingsofteware.Thissoftwarealsoprovidesmoreflexibilityandavaibalilitytotheusers.Theseareveryimportantfeaturesinrelativestudies.Keywords:Bioinformatics;Pseudo-position;putation250引言在最近十年里,采用计算方法对蛋白质序列进行分析,从而获取蛋白质的结构与功能的特征,已经成为了极具意义的研究课题。由于多数蛋白质的结构与功能特征皆与其序列相关,已有若干研究采用机器学****方法从蛋白质的序列出发对其功能进行预测[1]。然而,在这些303540研究中,其中最基本的一个步骤是将以字符串形式表达的蛋白质序列信息表示为固定维度的数字化的向量,从而能够采用机器学****算法(如支持向量机和人工神经网络等)对其进行处理。如何能够使用固定长度的数字化向量来表达非固定长度的表示蛋白质序列的字符串,同时又尽可能的表达字符串中所蕴含的所有信息,就成为了这个研究领域里的一个基本问题。在相关研究的早期,对蛋白质序列的表示多采用氨基酸组分,或者二肽组分的方式来进行表达。在1998年进行的蛋白质亚细胞定位预测中[2],所采用的表示方式就是氨基酸组分。而后来在2004年的类似研究中则使用了二肽组分[3]。Chou在2001年时,提出了伪氨基酸组分表示方法,并用这一表示方法成功进行了蛋白质多种属性的预测工作[4]。这一表示方法至今仍在使用。在2005年,Chou进一步改进了伪氨基酸组分表示方法,并将其用于酶的家族分类预测[5]。这一改进的表示方法也被成为两亲性伪氨基酸组分(AmphiphilicPseudo-positions)。许多研究人员在众多基金项目:高等学校博士学科点专项科研基金新教师基金(20100032120039)作者简介:杜朴风(1983-),男,副教授,研究方向为生物信息学.E

内容来自淘豆网www.taodocs.com转载请标明出处.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值