
生物信息
msw521sg
这个作者很懒,什么都没留下…
展开
-
fasta转成txt
fasta转成txt有的时候需要将fasta格式的序列文件转换成以tab键分割的txt文件写了一个简单的命令。用法如下:fasta2txt -i input.fa -o out.txt代码如下#!/usr/bin/env python# -*- coding: utf-8 -*-__author__ = "Sheng-Wei Ma"import click #需要你的电脑安装click包@原创 2017-02-10 22:55:49 · 5409 阅读 · 1 评论 -
GFF3 TO GTF
GFF3 TO GTFgff3格式是使用gmap软件得到的。 输入文件gff3的格式如下:chr1A IWGSCv1.0_gmap gene 11740 12074 . + . ID=TRIAE_CS42_1AS_TGACv1_023354_AA0082670.1.path1;Name=TRIAE_CS42_1AS_TGACv1_023354_AA0082670.1原创 2017-02-28 14:23:35 · 5867 阅读 · 1 评论 -
RNA_Seq差异表达分析流程
RNA_Seq差异表达分析流程1、数据下载ftp.sra.ebi.ac.uk/vol1/fastq/SRR122/005/SRR1228245/SRR1228245_1.fastq.gz;ftp.sra.ebi.ac.uk/vol1/fastq/SRR122/005/SRR1228245/SRR1228245_2.fastq.gzftp.sra.ebi.ac.uk/vol1/fastq/SRR12原创 2017-02-28 14:10:14 · 6924 阅读 · 1 评论 -
两个文件的合并
两个文件的合并分别有文件一和文件二,文件一和文件二都有一列内容是相同的。根据此列内容可将两者结合起来。文件一的格式如下 AEGTA04333 LOC_Os01g33520|LOC_Os01g33520.1 2.70E-25 LOC_Os01g33520|LOC_Os01g33520.1 PF02902 Ulp1 protease family, C-terminal cat原创 2017-02-18 18:03:07 · 2643 阅读 · 0 评论 -
推荐:蛋白在线比对网站
推荐:蛋白在线比对网站https://www.ebi.ac.uk/Tools/hmmer/提交一条蛋白序列去调取数据库中库相似的蛋白序列。结果与blastp结果类似。但是比blastp结果多出来很多其他的东西,比如,结构域检测,序列的多重比对.结果部分共分为四项,Score, Taxonomy, Domain,Download.原创 2017-02-18 11:37:55 · 15057 阅读 · 0 评论 -
遗传图谱比较
### 遗传图谱比较或者遗传图和物理图谱比较今天在Bioinformatics杂志上看到一篇关于遗传图谱之间比较的文章,感觉不错,特介绍如下。题目是:The Genetic Map Comparator: a user-friendly application to display and compare genetic mapsPMID: 28073759 DOI: 10.10原创 2017-01-13 10:21:46 · 4473 阅读 · 1 评论 -
排除指定的序列
from Bio import SeqIOname = open('1.txt', 'r')o = open('1.fa', 'r')wanted = set(line.rstrip("\n") for line in name)records = (r for r in SeqIO.parse('unigene_seq_5.fasta', "fasta") if r.id not in原创 2016-09-17 11:30:22 · 342 阅读 · 0 评论 -
Extract User Defined Region From An Chromosome Fasta File
Extract User Defined Region From An Chromosome Fasta File小麦基因组一条染色体序列至少有500M,我们想要获得染色体某一段的序列还是比较难办的。除了samtool可以做到,今天发现一个用python写的脚本pyfaidx,使用起来也比较方便。首先安装pip install --user pyfaidx #安装在自己账户的 $HOME/.loc原创 2016-12-30 09:59:35 · 553 阅读 · 0 评论 -
map gene to chromosome
绘制基因位于染色体上的图(map gene to chromosome)最近有一批基因要根据其在染色体上的位置将其展示出来,想到的一种解决办法是:参照遗传连锁图的画法将其展示出来,所以能绘制遗传连锁图的软件都可以使用,如mapchart,genetic-mapper等。另外一种方法就是寻找合适的绘制软件,运气不错,还真让我找到一个在线网站可以绘制此图(http://mg2c.iask.in/mg2原创 2016-12-24 23:21:11 · 2124 阅读 · 0 评论 -
Mikado - pick your transcript
Mikado - pick your transcript: a pipeline to determine and select the best RNA-Seq predictionMikado is a lightweight Python3 pipeline to identify the most useful or “best” set of transcripts from multi转载 2017-01-02 16:37:31 · 483 阅读 · 2 评论 -
Portcullis 剪切位点校正工具
PortcullisPortcullis stands for PORTable CULLing of Invalid Splice junctions from pre-aligned RNA-seq data. It is known that RNAseq mapping tools generate many invalid junction predictions, particularl转载 2017-01-02 16:07:35 · 700 阅读 · 0 评论 -
Carthagene安装
Carthagene安装 最近在写文章,需要用carthagene做遗传连锁图。记录下安装过程。 下载地址: http://mulcyber.toulouse.inra.fr/frs/download.php/1199/carthagene-1.3.beta-Linux-x86_64.sh 我的是centos6,所以我下载的是x86_64 当然安装之前需要安装一些依赖包: • tcl原创 2016-11-24 11:22:19 · 1149 阅读 · 0 评论 -
GC content
计算核酸序列的GC含量 (GC content)#!/usr/bin/env python# -*- coding: utf-8 -*- __author__ = 'shengwei ma'__author_email__ = 'shengweima@icloud.com'from Bio import SeqIOfrom Bio.SeqUtils import GCfor rec in S原创 2017-03-03 15:36:27 · 1563 阅读 · 0 评论 -
detectMITE 安装以及使用
detectMITE 安装以及使用 安装之前需要安装两个其他软件。第一个就是matlab,第二个是cd-hist.1、matlab的安装下载好之后:第一步是挂载iso文件mount -o loop Matlab801_MacUnix.iso /mnt/第二步是安装cd /mnt/./install -mode silent -agreeToLicense yes -fileInstallatio原创 2017-03-18 10:40:58 · 1319 阅读 · 1 评论 -
makeblastdb注意事项
makeblastdb注意事项本地blast,需要自行构建数据库。那么就要用到makeblastdb。这个命令很简单。USAGE makeblastdb [-h] [-help] [-in input_file] [-input_type type] -dbtype molecule_type [-title database_title] [-parse_seqids] [-h原创 2017-01-17 11:23:53 · 12050 阅读 · 1 评论 -
使用SnpEff 对SNP结果进行分析
SnpEff is a variant annotation and effect prediction tool. It annotates and predicts the effects of variants on genes 详细的说明请阅读:http://snpeff.sourceforge.net/SnpEff_manual.html一, 安装:首先在家目录下, 下载安装包wget h原创 2017-08-11 21:50:37 · 9349 阅读 · 0 评论 -
基因表达模式聚类以及可视化
最近在使用RNA_seq数据做些分析,结果得到了大量差异表达以及共表达的基因,如何合理展示这些基因也是一件不简单的事情。除了常见的热图(heatmap)展现形式,今天在推荐另外一种展示方式(上图C)。需要R包TCseq或者Mfuzz。我这里给出的代码是基于TCseq。 输入文件就是一个基因表达量的矩阵,如下图。 代码也很简单,见下图,也请点击阅读原文查看代码。 library(TCseq)原创 2017-07-19 21:44:18 · 21680 阅读 · 2 评论 -
根据GFF3文件统计外显子大小和数量以及内含子大小
根据GFF3文件统计外显子大小和数量以及内含子大小#!/usr/bin/env python# -*- coding: utf-8 -*-__author__ = "Sheng-Wei Ma"with open('TGACv1.cdna.gff3', 'r') as f: for line in f: lin = line.strip().split('\t')原创 2017-01-17 20:31:30 · 12973 阅读 · 5 评论 -
在线绘制基因表达热图
在线绘制基因表达热图昨天需要画基因表达热图(heat map), 想起一个在线的网站可以很方便的绘制,提供大家。不用R代码,这个工具绝对可以画出你想要的那样。网址是:https://software.broadinstitute.org/morpheus/原创 2017-07-11 23:55:11 · 30915 阅读 · 3 评论 -
RNA_seq表达分析
输入文件input_v1.0.txt (三列,分别是 *.1.fastq.gz,*2.fastq.gz , *.sam)hisat2运行参数与流程(hisat2_IWGSCv1.0.py)#!/usr/bin/env python# -*- coding: utf-8 -*-__author__ = 'shengwei ma'__author_email__ = 'shengweima@icl原创 2017-03-17 11:55:50 · 2007 阅读 · 0 评论 -
基于RNA-seq的基因表达分析
我的青春 最近在做一些小麦基因的表达分析,想到使用RNA-seq的数据进行生物信息学分析,并且比我做实验用的组织还要多。 下载数据之后,首先要对数据进行低质量序列和载体序列等污染序列去除,我这里结合了两个软件AdapterRemoval和bbduk2, bbduk2是bbmap中的一个子程序。AdapterRemoval --file1 input1.fastq.gz --fil原创 2016-09-23 14:53:17 · 16277 阅读 · 0 评论 -
Sambamba: process your BAM data faster!
Sambamba: process your BAM data faster! 对于很大的(>100G)的bam文件,排序时间很慢不说,往往需要1天或更多的时间,但结果还会出错。如下边的错误. 经测试Sambamba表现较好,能够节省很多时间。随着接触的数据越来越多,感觉很简单的事情也需要花很多时间。不仅仅是数据多了的问题![bam_sort_core] merging from 3288 fil原创 2017-03-25 17:33:59 · 5558 阅读 · 0 评论 -
给GFF3格式文件添加fasta格式
给GFF3格式文件添加fasta格式 是不是没见过带有序列的gff3格式。为啥这么做,这就要说到我最近在做的东西了。Jbrowse是一款基因组可视化浏览器。可以将基因组可视化以及大部分以基因组为基础的可视化,比如reads、SNP、QTL、GWAS、gene。支持fasta,bam,vcf,gff3等格式文件。说了这么多,给个实例,自己慢慢体会。同时附上官网地址和Genome Biology上的论原创 2017-03-31 11:06:28 · 3711 阅读 · 0 评论 -
二代测序短序列mapping新选择:Magic-BLAST
Magic-BLAST is a tool for mapping large next-generation RNA or DNA sequencing runs against a whole genome or transcriptome.前面一段 时间看到NCBI上blast出了一个新系列,短序列的mapping。基本与blast使用体验一致。现在还未测试Magic-BLAST 是否适用于长原创 2017-03-03 17:35:02 · 5020 阅读 · 0 评论 -
MOSAIK安装
MOSAIK安装1、下载git clone https://github.com/wanpinglee/MOSAIK.git2、安装进入src文件夹,然后make #注意如果静态库没有安装可使用 yum install glibc-static 安装#或者修改includes/linux.inc文件,将"-static"删除3、使用还未探索,这是文章MOSAIK: A Hash-Based Alg原创 2017-03-07 11:03:53 · 468 阅读 · 0 评论 -
python 如何实现并行查找关键字所在的行?
经常遇到提取问题,一旦要提取的文件很大,关键字很多,可以使用集合#!/usr/bin/env python# -*- coding: utf-8 -*- __author__ = 'Shengwei Ma'__author_email__ = 'shengweima@icloud.com'with open('3.txt', 'r') as f1: a = set(line.stri原创 2016-11-21 09:24:57 · 7678 阅读 · 0 评论 -
gff3格式转换
使用gmap软件输出的gff3文件并不能直接用来作为gffcompare的输入文件 故此,需要进行转换,转换也简单就是讲target字段删除即可。#!/usr/bin/env python# -*- coding: utf-8 -*- __author__ = 'shengwei ma'__author_email__ = 'shengweima@icloud.com'with open('原创 2016-11-19 23:14:31 · 7235 阅读 · 1 评论 -
从maker-P结果中筛选完整CDS
>maker-lcl|TGACv1_scaffold_433174_5DL_UN109209-exonerate_est2genome-gene-0.0-mRNA-1 transcript offset:19 AED:0.00 eAED:0.00 QI:19|1|1|1|0|0|3|270|77GGATGTTGCTACTTGCTAGATGGAAATGGAAACATGCAAGTTGGAACTTCC原创 2016-09-17 11:31:29 · 1105 阅读 · 0 评论 -
exonerate结果整理,获取target序列
软件exonerate输出的结果如下,想要获得比对上的target序列Command line: [./exonerate INPUT/UN029382.fa INPUT/scaffold125532.fa --model est2genome --showtargetgff TRUE --showvulgar no --showalignment yes --alignmentwidth 2原创 2016-09-17 11:29:14 · 3865 阅读 · 4 评论 -
获取指定位置序列
负号表示反向序列,并且start and end 的位置是序列反向互补之后的位置Name strand start end total_lengthUN000226 -2 1088 1411 1431UN073473 3 861 1082 1158UN082299 -1 838 1014 1105UN064320 2 791 1006 1150UN070736 -3 780 1271原创 2016-09-17 11:27:51 · 3180 阅读 · 0 评论 -
Sequence Cleaner
Sequence CleanerDescriptionI want to share my script using Biopython to clean sequences up. You should know that analyzing poor data takes CPU time and interpreting the results from poor data翻译 2016-09-17 11:26:53 · 366 阅读 · 0 评论 -
GMAP gff3格式转换与数据统计
##gff-version 3# Generated by GMAP version 2016-06-09 using call: gmapl.sse42 -D /export/data/ -d NRGenome --trim-end-exons=10 -t 32 --canonical-mode=2 --allow-close-indels=2 -B 4 -f 4 -n 0 ./unig原创 2016-09-17 11:24:52 · 2278 阅读 · 0 评论 -
根据gff文件判断一段序列是否位于其内
1.txtUN227692 chr6B 558820383 558820604 . 100.0 99.1 216 2 0 4UN113387 chr7A 683635472 683635624 . 100.0 100.0 153 0 0 0UN128584 chr7D 27592786 27593326 . 100.0 100.0 541 0 0 0UN170802 chr4B 5053原创 2016-09-17 11:23:10 · 862 阅读 · 0 评论 -
NCBI EST 文库格式转换
NCBI EST 文库格式转换#!/usr/bin/env python# -*- coding: utf-8 -*-with open('1.txt', 'r') as f: a = [] b = [] for num, line in enumerate(f): if 'Lib' not in line: line1原创 2016-09-17 11:22:05 · 468 阅读 · 0 评论 -
利用EST文库计算unigene表达量
输入文件格式:UN182534 rootUN182535 rootUN182536 rootUN182537 rootUN052459 flower seed seed seed flower flower root seed flower flower flower root root flower seed flower flower seed seed leaf flower原创 2016-09-17 11:19:43 · 737 阅读 · 0 评论 -
从gff3文件获得fasta序列
get fasta sequence from gff3chr1A NRGenome exon 1157233 1158291 100 + . ID=TRIAE_CS42_U_TGACv1_641506_AA2096860.1.mrna1.exon1;Name=TRIAE_CS42_U_TGACv1_641506_AA2096860.1;Parent=TRIAE_CS42_U_TGACv1_6原创 2016-09-17 11:16:08 · 3035 阅读 · 0 评论 -
HISAT2安装及使用
IntroductionWhat is HISAT2?HISAT2 is a fast and sensitive alignment program for mapping next-generation sequencing reads (whole-genome, transcriptome, and exome sequencing data) against the general h转载 2016-09-13 16:39:01 · 26466 阅读 · 2 评论 -
水稻重要品种与参考基因组存在广泛差异
我是生物信息学专业,研究对象是小麦,小麦是异源六倍体作物,基因组多达17Gb,是水稻基因组的40倍,大约85%是重复序列。至今,小麦基因组仍然没有一个较好的参考基因组,好在,国际小麦测序组织已经公布了一个相对较好的reference,但是对应的基因组注释没有公布。我实在仍不住吐槽,很多工作放到水稻上1个月可以解决的东西,放到小麦上需要至少1年多,当然还不一定解决。我们没有自己测序的数据,加上小麦基因原创 2016-08-31 22:57:48 · 2506 阅读 · 1 评论 -
真核基因组注释导读
前言本博文基本是翻译自文章A beginner’s guide to eukaryotic genome annotation 二代测序以及最近三代单分子测序的火热,让我们获得高质量基因组越来越来容易,然而基因组注释仍然面临许多挑战。其中一个挑战就是寻找基因(gene finding),训练基因model,选择基因预测软件和注释软件,另一个挑战就是更新合并不同途径注释的基因,目前还没有完原创 2016-08-29 09:43:48 · 5216 阅读 · 0 评论 -
通过blast结果选择完全overlap的序列
根据blast结果选择完全overlap的序列,此时没有考虑identity的高低Query Target overlap_length identity Query_length Target_length Percent Q_start Q_end T_start T_end strandUN065663 maker-lcl|TGACv1_scaffold_643943_U_UN14原创 2016-09-17 11:32:42 · 1492 阅读 · 0 评论