
生物信息学
Jun-H
一步一个脚印
展开
-
HHsuite使用初探
1. hhfilter: 过滤MSA信息的,可将序列相似度(-id 90)、gap过多(-cov 80)从MSA中移除。2. hmmsearch 将hmm文件(隐马尔可夫模型)搜索FASTA文件3. hmmbuild 可将MSA生存hmm文件(隐马尔可夫模型)...原创 2020-06-11 09:02:05 · 2045 阅读 · 0 评论 -
Matlab画带星的ROC曲线
function [AUC betterthreshold MCCMAXThreshold Confuse_Matrix MCCs FPRs TPRs F1S] = ROC_2_Class_OneFile_WithStar(begin_threshold, end_threshold, step, ismaxmcc,classificationFileName, star_num, star_s...原创 2019-10-27 07:22:44 · 710 阅读 · 0 评论 -
PDB文件头中时间格式解析
在做生物信息学时,经常需要使用到Protein Data Bank中的数据,时不时的需要使用PDB文件中的时间(时间格式为10-MAR-14 (2014年三月10日))将已有数据分成训练数据和独立测试数据,时间如何解析是一件比较简单的事情,为了方便寻找故将这段代码贴在这里。private static double parsePDBTimeStr(String pdb_time){ //原创 2016-09-09 23:01:27 · 971 阅读 · 0 评论 -
ROC曲线及AUC评价指标
很多时候,我们希望对一个二值分类器的性能进行评价,AUC正是这样一种用来度量分类模型好坏的一个标准。现实中样本在不同类别上的不均衡分布(class distribution imbalance problem),使得accuracy这样的传统的度量标准不能恰当的反应分类器的性能。举个例子:测试样本中有A类样本90个,B 类样本10个。若某个分类器简单的将所有样本都划分成A类,那么在这个测试样本转载 2014-10-22 11:35:51 · 1644 阅读 · 0 评论 -
流形学习
流形(manifold)的概念最早是在1854年由 Riemann 提出的(德文Mannigfaltigkeit),现代使用的流形定义则是由 Hermann Weyl 在1913年给出的。江泽涵先生对这个名词的翻译出自文天祥《正气歌》“天地有正气,杂然赋流形”,日本人则将之译为“多样体”,二者孰雅孰鄙,高下立判。流形(Manifold),一般可以认为是局部具有欧氏空间性质的空间。而实际转载 2014-10-31 12:03:03 · 3658 阅读 · 1 评论 -
生物信息学:神秘的新职业
生物信息学:神秘的新职业来源:科学新闻 作者: Alaina G. Levine /文 姜天海/译 2014年10月09日 关键词:生物信息学,大数据,个性化,计算机科学摘要:今天的生物信息学家迎来了好时候。由于各个部门生成了几乎无穷无尽的生物数据,因此形成了对于生物、统计学和计算机科学交叉领域中有经验的专业人才的高度需求。科学家如果能够分析大量信转载 2014-10-10 22:11:57 · 2189 阅读 · 0 评论 -
大数据时代的生物医学
【题】大数据时代的生物医学【出处】《中国计算机学会通讯》第 9 卷第 9 期 2013 年 9 月刊【作者】刘 雷 关键词:大数据 生物医学大数据时代的生物医药科学研究活动特点如今大数据时代已经悄然而至。生命科学领域里以脱氧核糖核酸(deoxyribonucleic acid, DNA) 双螺旋结构的提出为起点,在20 世纪后期出现了飞跃式的发展。几个具有重转载 2014-09-22 19:32:30 · 5921 阅读 · 0 评论 -
英雄会上的一些题
第五届在线编程大赛月赛指定题目:反向互补子串,自己的一些想法(见代码), 欢迎广大码农来交流!原创 2014-09-22 18:46:52 · 1259 阅读 · 7 评论 -
PSI-BLAST参数解释
blastpgp 2.2.26 arguments: -d Database [String] default = nr -i Query File (not needed if restarting from scoremat) [File In] Optional default = stdin -A Multiple Hits windo转载 2014-04-18 12:05:33 · 22513 阅读 · 1 评论 -
Blast的汇总,从入门到应用
Blast是真是非常常用的一个生物信息工具。只要是接触过序列的朋友,没玩过Blast,那好像是不大可能的。Blast基本上也就是生物信息的入门工具。虽说是入门,但要真正学好,还是蛮复杂的。但是常用的,还是要了解一些的。今天就来汇总一下,关于Blast的文章。包括Blast介绍。Blast的下载。本地Blast。与NCBI的Blast。都是热门啊。转载 2014-04-18 13:31:15 · 2736 阅读 · 0 评论 -
覆盖算法与SVM区别
#include #include #include #include #include #include #include #include #include #include using namespace std;// JunH Coded 2013-09-14// I love you YDDtypedef struct Samp原创 2013-09-14 09:37:59 · 1529 阅读 · 0 评论 -
LIBSVM Introduction
1.首先从主页上下载libsvm、Python2.5.2和gnuplot 三个软件。 http://www.csie.ntu.edu.tw/~cjlin/2.准备好数据,首先要把数据转换成Libsvm软件包要求的数据格式为: label index1:value1 index2:value2 ... 其中对于分类来说label为类标识,指定数据的种类;对于回归来说label为目转载 2013-09-07 07:53:57 · 913 阅读 · 0 评论 -
维特比算法[Wiki]
维特比算法维特比算法(Viterbi algorithm)是一种动态规划算法。它用于寻找最有可能产生观测事件序列的-维特比路径-隐含状态序列,特别是在马尔可夫信息源上下文和隐马尔可夫模型中。术语“维特比路径”和“维特比算法”也被用于寻找观察结果最有可能解释相关的动态规划算法。例如在统计句法分析中动态规划算法可以被用于发现最可能的上下文无关的派生(解析)的字符串,有时被称为“维特比分析”转载 2013-09-06 20:35:07 · 3818 阅读 · 0 评论 -
蛋白质结构与功能的预测方法总结和资料汇总
“折叠(fold)”的概念“折叠(fold)”是近年来蛋白质研究中应用较广的一个概念,它是介与二级和三级结构之间的蛋白质结构层次,它描述的是二级结构元素的混合组合方式。二级结构的预测方法介绍:Chou-Fasman算法: 是单序列预测方法中的一种,它是使用氨基酸物理化学数据中派生出来的规律来预测二级结构。首先统计出20种氨基酸出现在α螺旋、β折叠和无规则卷曲中出现频率的大小,然转载 2013-06-01 17:26:47 · 24932 阅读 · 0 评论 -
Confusion Matrix
转载 2013-03-26 11:31:15 · 765 阅读 · 0 评论 -
将PDB文件中的ATOM重新标定位置
// 复制文件 //将PDB文件中的ATOM重新标定位置 public static void junhSpeCopyPDBFile(File sourceFile, File targetFile) throws Exception { String targetFilePath = targetFile.getParent(); File原创 2013-01-04 09:32:45 · 1157 阅读 · 0 评论 -
Java 实现PDB数据库中蛋白质部分序列与Uniport数据库中相应的全长序列的最优匹配
/** * @param strArr数组的第一维是部分序列,第二维是全长序列 * @return 返回时两个大部分对齐后的部分和全长序列, 若返回null时则表示, 程序对齐失败 * @function 程序主要是实现经过处理后的蛋白质部分序列与全长序列的对齐, * 忽略每个氨基酸前后MW(最小窗口)中间的一些小的不一样的氨基酸, 部分序列中可以加空格, 全长序列原创 2012-09-06 20:34:29 · 2157 阅读 · 0 评论