
生物信息
文章平均质量分 71
MtoIronman
这个作者很懒,什么都没留下…
展开
-
生物信息学入门之基本概念之蛋白质同源检测和折叠识别
前言蛋白质同源性检测和折叠识别是近些年来生物信息学中的热点问题。通过蛋白质远同源性检测和折叠识别,能够初步推断未知蛋白质的结构和功能。其中,SCOP数据库[1]按照层级结构将蛋白质进行分类,从上到下依次是:类(class),折叠(fold),超家族(superfamily)和家(family)(如图1-1所示)。蛋白质远同源性检测的任务就是找出未知蛋白质所属的超家族。折叠识别的任务就是找...原创 2020-06-18 18:10:13 · 13599 阅读 · 0 评论 -
DNA特征提取之序列组装K-mer算法
基因就像一本天书,里面的字都是有A,T,C,G组成的。我们测序出来的大于几百bp的小的序列,我们叫做reads。我们测序的结果中有上百万条的reads,而这些reads的位置我们又不知道,我们只能根据他们重叠的部分来尽量还原他的原型。k-mer是指将reads分成包含k个碱基的字符串,一般长短为m的reads可以分成m-k+1个k-mers。举个例子吧:为了简化,有这么个reads(当然实转载 2018-01-23 11:44:16 · 20689 阅读 · 3 评论 -
生物信息领域常用软件工具及数据库
常用工具1. PSi-blastPsi-balst是一种更加高灵敏的Blastp程序,对于发现远亲物种的相似蛋白或某个蛋白家族的新成员非常有效.多用于生成蛋白质的多序列比对(MSA)和PSSM(特异性位置打分矩阵)。相关指令和生成PSSM文件的代码参考:2.ClustalClustal可以用来发现特征序列,进行蛋白分类,证明序列间的同源性,帮助预测新序列二级结构与三级结构,确定PC...原创 2018-03-02 11:36:29 · 7605 阅读 · 0 评论 -
动态编程之序列比对:Needleman-Wunsch 算法和Smith-Waterman算法
1. 加分规则S(a,b) = 10 (a=b)S(a,b) = -3(a!=b)S(a,b) = -5(a='_' or b='_')通常DNA和RNA,Protein都有打分矩阵,Protein常用打分矩阵BLOSUM622. 动态规划算法:全局比对算法Needleman-Wunsch思路:从第一个到最后一个,一个个比,一条序列比个遍,然后得出最优解example:局部比对Smith-Wate...原创 2018-03-29 15:37:39 · 15084 阅读 · 2 评论