
生信工具
文章平均质量分 76
生信了(公众号同名)
公众号:生信了
展开
-
TargetMine - 多组学数据整合和药物靶点分析平台
使用TargetMine分析平台可一次查询多个数据库中的关联信息,从而能够更全面地评估研究目标,减少信息遗漏。同时该平台提供多种富集分析和相互作用分析工具,可对输入数据和查询结果进行进一步分析,减少多个工具的交叉使用。转载 2022-11-17 11:18:53 · 1178 阅读 · 0 评论 -
免疫受体 AIRR 分析平台 immuneML 简介
免疫系统在肿瘤分型和治疗中发挥着重要的作用。TCR 和 BCR 都属于适应性免疫受体 Adaptive immune receptor repertoires (AIRR)。AIRR 组成信息结合 MHC,年龄,性别等,在基于受体库的预测和分析免疫状态(健康,疾病,感染等)方面有特殊作用,可应用于疾病诊断。基于序列的抗原和表位结合预测对 AIR-based 的治疗靶标发现和工程化改造具有重要意义。转载 2022-09-23 09:14:29 · 1268 阅读 · 0 评论 -
TogoID - 生物医学数据库ID转换工具
现有ID转换工具存在支持的数据库范围有限,难以加入新的ID转换,对应ID的生物意义不清晰,不提供可用API等问题。TogoID项目通过扩大数据库范围,定义本体明确描述ID之间关系,基于云托管的数据定期更新,构建了友好的web界面和API,满足了ID转换的各类需求。:当需要多个步骤转换时,对应实体在源数据库,中间数据库和目标数据库中的种类并不相同,此时需要仔细查看。当有多个可能的来源时,需要点选,然后右侧可显示目标关联数据库。包含基因,转录本,蛋白,结构,化合物,信号通路,疾病和文献等48个数据库。翻译 2022-09-10 09:47:47 · 475 阅读 · 0 评论 -
生信(11)htslib处理bam或sam文件的简单示例
本文给出了一个示例,介绍如何使用htslib编写c程序来处理bam/sam文件。(本文写于2020年初,随着将来htslib和samtools库的更新,本文部分内容可能会不适用,请读者注意官网的更新动态。)我们通常会使用samtools软件来处理bam/sam文件。但有时候我们也需要对bam/sam文件进行一些个性化的处理,这个时候就需要自己编写程序。从samtools的github官网...原创 2020-03-20 11:02:06 · 2347 阅读 · 1 评论 -
生信(十)利用kseq.h和regex.h实现类似grep查找fastq reads功能的示例(C语言)
本文给出了一个利用kseq.h和regex.h实现类似grep查找fastq reads功能的示例(C语言)。引出问题做生信的朋友应该都很熟悉类Unix系统中的grep命令,该命令可以快速查找并输出包含目标字符串的行。在对fastq文件进行处理时,我们有时候需要查找包含特定字符串的reads。因为一个reads包含了多行,所以grep命令不能完全适用。那有没有其它命令或者工具可以实现快速简...原创 2020-02-05 14:58:57 · 718 阅读 · 0 评论 -
生信(九)生信代码中的位操作
本文介绍了生信代码中用到的一些位操作。我们知道,0和1构成的二进制充斥着计算机语言的世界。一般来说,我们对二进制可以操作的最小单位就是一个bit(位)了,一个bit要么是0,要么是1。在编写代码的过程中,如果我们能了解一点位操作,有时可以简化代码、提高效率。这一点对于生信的编程同样适用。应用一:列举k-mer比如,在《算法(三)列举所有k-mer的组合》一文中,笔者曾经分享过一段代码,...原创 2020-01-29 11:03:53 · 549 阅读 · 0 评论 -
用Annovar注释人类以外的基因组
本文介绍如何用Annovar注释人类以外的基因组。分析过NGS数据的朋友应该都听说过乃至使用过Annovar这个工具。Annovar是一款对基因组数据进行注释的软件。所谓注释,可以这样简单理解:我们知道二代测序下机后的序列经过比对后,会得到一系列变异数据,这些变异数据只是告诉我们在基因组的某个位置发生了一段序列的改变,至于这个改变会不会影响生物学功能,我们并不清楚。而注释就是将基因组的序列...原创 2019-10-23 10:05:32 · 884 阅读 · 0 评论 -
Seqtk: code walkthrough
在前文《算法(一)截取reads的算法》和《算法(二)蓄水池抽样算法快速随机抽取reads》中我们介绍的一些算法在seqtk(https://github.com/lh3/seqtk)中都实现了。seqtk是生信大牛李恒写的一个处理fastq文件的工具,功能齐全,而且运行效率很高。近期笔者看到李恒的博客上对seqtk的代码写了一个简短的介绍,有兴趣的朋友可以看一看。...原创 2019-10-24 11:02:14 · 490 阅读 · 0 评论 -
生信(八)zlib库操作fq-gz文件
关键词:fq; gz; zlib近期感谢yongzhe同学的需求,让我有机会能够用c来实操fq.gz的处理。具体需求很简单:输入一个index,将fq1和fq2(两个都是gz文件)中能够匹配该index的reads输出。输出文件也要是gz格式。假设输入的index是ACCGAATG,那么下图中红色框中的字符串需要与输入index匹配才会将那条reads输出。其实对fq.gz文件的处理,...原创 2018-11-20 13:43:42 · 5486 阅读 · 1 评论 -
生信(七)生信中常用命令
今天将生信工作中的一些常用命令记录(分享)如下:(以后会不定期更新)转换dos/windows格式的bed文件为unix格式(说明:我们拿到的bed文件时常是客户在Windows系统下编辑好的,其行尾是\r\n,在进行NGS分析前最好将其转换为Unix风格的行尾\n。)可以看出上面的dos.bed.txt是一个dos风格(^MKaTeX parse error: Can't use fu...原创 2018-11-13 15:32:43 · 1303 阅读 · 0 评论 -
生信(六)(转载)开卷有益
关键词:文献;今天分享一些经典文献/书籍给大家,供参考。基因组组装文献• Assembly of large genomes using second-generation sequencing. Genome Research (2010)• A Practical Comparison of De Novo Genome Assembly Software Tools for Next...转载 2018-11-02 20:34:37 · 231 阅读 · 0 评论 -
生信(五)awk求取某一列的平均值
关键词:awkawk是生信人必须要掌握的命令行工具。为啥?因为它太强大了。我们举一个例子来说明。假设我们有一个1000万行的文件,大概长这样:怎么求第四列的平均数呢?Python版本我们可以用几行Python代码解决,比如这样:其耗时:R版本用R来做计算也是很适合的,比如像这样:其耗时:awk版本awk用一行代码就可以解决问题,像这样(注意耗时):至此,我们可以...原创 2018-11-02 11:38:46 · 5491 阅读 · 1 评论 -
生信(四)命令行并行化工具GNU parallel
关键词:parallel我们在日常工作中经常要“批量”处理一些任务,比如“批量”解压目录下的gz文件。当然,用shell写一个for循环是很简单就可以实现的,比如下面这样:或者像这样利用xargs命令:或者利用find命令:但是这样的操作往往是很耗时的,因为它是“顺序”执行的,也就是说如果有f1.gz,f2.gz,f3.gz这三个压缩文件的话,f2.gz必须要等f1.gz解压完成后才...原创 2018-11-01 15:16:42 · 985 阅读 · 0 评论 -
生信(二)反向互补序列
关键词:reverse; complement; sequence;**如何得到一段基因序列的反向互补序列?**这是基因测序领域经常遇到的问题。其实答案很简单,许多现成的软件都有这个功能。但是作为一个生信人,当然可以自己实现一个了。首先想到的也是最基础的方法就是利用**多个if…else…**的语句进行判断选择。这种方法太笨拙,写出来的代码很不好看。今天我们分享几种好一点的方法。Shell版...原创 2018-10-23 15:37:24 · 9248 阅读 · 0 评论 -
生信(一)对BED文件进行排序
原创:hxj7关键词:bed; sort; cmp; key; alpha-numeric问题在处理NGS数据时,经常要对BED文件进行排序。比如BED文件长这样,分隔符是’\t’:我们想按照如下规则进行排序:第一列按照染色体编号进行排序,排序后应该是chr1, chr2, chr4, chr5, chr10, chr20, chrX。第二列和第三列按照数字序进行排序。第一个子...原创 2018-10-22 16:38:49 · 5868 阅读 · 0 评论 -
在线工具(一)批量获取碱基序列
原创:hxj7假设你记录了许多染色体区间(比如你有一个bed文件),你想知道每个区间对应的碱基序列是什么。如果你手头上有全基因组的序列并且你会编程的话,那么你写一个脚本就可以很快地完成任务。要是你没有全基因组序列或者不会编程呢?今天介绍一个利用UCSC Table Browser来批量获取碱基序列的方法。首先进入UCSC Table Browser的界面,网址是https://genome...原创 2018-10-18 20:54:01 · 4658 阅读 · 0 评论