msw521sg-优快云博客

原创如何搭建一个网页版的BLAST服务器

如何搭建一个网页版的BLAST服务器胖丫今天跟我说：“师兄，再来给我调调网络呗？公共BLAST服务器太慢了，半天刷新不出来！”我说：“我们这是百兆宽带到桌面，刷新慢不是网络的问题，是你离人家的服务器太远了！L”胖丫一脸委屈的说：“要不我去人家有服务器的实验室申请个博士读读？”。“……”不知道大家平时用公共BLAST服务器时有没有遇到刷新慢的问题？或者想比对一些公共数据库中没有的

2017-12-20 18:07:00 3725 1

原创使用SnpEff 对SNP结果进行分析

SnpEff is a variant annotation and effect prediction tool. It annotates and predicts the effects of variants on genes 详细的说明请阅读：http://snpeff.sourceforge.net/SnpEff_manual.html一，安装：首先在家目录下，下载安装包wget h

2017-08-11 21:50:37 9347

原创体外应用Cas9系统实现对上百kb的基因组片段的靶向克隆

2015年的时候看到这样篇论文，了解到Cas9可以进行体外酶切。清华大学生命科学学院朱听研究员课题组在《自然-通讯》上在线发表了题为《CATCH技术实现大型基因簇一步法靶向克隆》（Cas9-Assisted Targeting of Chromosome segments CATCH enables one-step targeted cloning of large gene clusters）的

2017-08-07 09:45:04 1818

原创如何获取一个基因家族的所有小麦基因

如何获取一个基因家族的所有小麦基因昨天有同学问我如何获得谷子中一个基因家族的所有基因。谷子已经测过序，获得起来还是比较简单。想要获得一个基因组家族的所有基因，方法很多。比方说，IWGSCv1.0的基因功能注释文件里就可以直接搜索相关关键词或者蛋白domain的ID等获取。结合基因家族序列特点，合理选择获取方法。有的基因家族成员之间保守性不好，可能官方给的注释里边不是全。下面说一下如何在线获取基于TG

2017-08-03 09:43:34 16004 3

原创基因的富集分析

通过RNA_seq差异表达分析等获得一组基因，想要进一步了解这些基因可能参与哪些生物学过程，具有哪些功能，一般就会用到基因的富集分析了。现在小麦基因注释信息已经可以获得，目前来看包括两套。一个是TGACv1，另一个就是IWGSC1.0。需要用到一个叫“clusterProfiler”的R包。下面用到的数据集来自TGACv1。1、安装source("https://bioconductor.org/b

2017-07-26 23:08:31 12444

原创基因表达模式聚类以及可视化

最近在使用RNA_seq数据做些分析，结果得到了大量差异表达以及共表达的基因，如何合理展示这些基因也是一件不简单的事情。除了常见的热图(heatmap)展现形式,今天在推荐另外一种展示方式(上图C)。需要R包TCseq或者Mfuzz。我这里给出的代码是基于TCseq。输入文件就是一个基因表达量的矩阵，如下图。代码也很简单,见下图，也请点击阅读原文查看代码。 library(TCseq)

2017-07-19 21:44:18 21679 1

原创在线绘制基因表达热图

在线绘制基因表达热图昨天需要画基因表达热图(heat map), 想起一个在线的网站可以很方便的绘制，提供大家。不用R代码，这个工具绝对可以画出你想要的那样。网址是：https://software.broadinstitute.org/morpheus/

2017-07-11 23:55:11 30912

原创麦瘟病(wheat blast)是什么鬼

麦瘟病(wheat blast) 　　今年看到过几次有关麦瘟病的研究论文。第一次看见的时候还很好奇，特地查了一下。几天前在science上看到一篇关于麦瘟病研究的论文。文章题目是“Evolution of the wheat blast fungus through functional losses in a host specificity determinant”。文章主要讲了这个病

2017-07-11 10:37:59 2550 1

原创野生二粒小麦基因组在science发布

野生二粒小麦基因组在science发布　　现代小麦是世界上的三大粮食作物之一，由于其基因组和复杂，它的基因组研究远远落后于水稻和玉米，迄今还没有一个较好的参考基因组发布。不过随着测序成本和技术的进步，今后一段时间小麦及其祖先种的基因组会陆续发布。我们餐桌上的小麦是一个异源六倍体物种，经历一系列的驯化才变成今天的小麦。研究已经表明六倍体小麦是由3个2倍体祖先种间2次种间杂交而来。第一次杂交形

2017-07-07 11:10:23 3556

原创 sam2gff3

需要注意的是，有时候一条序列可以比对到基因组多个地方，转换成gff3格式之后就会出现重复。这就要评估你的研究目的了。一般情况不会影响。当然也可以将sam文件中这种情况进行筛选。#!/usr/bin/perl -wuse strict;open IN,"2.sam"; #输入文件open OUT,">output.gff3";#输出文件my %gtf;my %pos;while (<IN>

2017-07-05 20:37:33 809

原创第一个接近完整的六倍体小麦基因组

第一个接近完整的六倍体小麦基因组今天在bioRxiv看到刚在线的有关小麦基因组的文章。文章题目是“The first near-complete assembly of the hexaploid bread wheat genome,Triticum aestivum”。看到文章作者和单位的时候，我有点不淡定了。作者不太熟悉，猜测应该不是和IWGSC那伙人是一起的。作者单位包括约翰斯·霍普金斯大学

2017-07-04 18:03:04 3391

原创 NCBI推出blastp加速服务(Accelerated protein-protein BLAST)

NCBI推出blastp加速服务(Accelerated protein-protein BLAST)　　很多时候会用到NCBI在线blastp的nr库，随着nr库越来越大，速度也越来越慢。这不在今年5月份的时候推出了blastp加速工具。使用非常简单，blastp页面中在Program Selection一项中选择Quick BLASTP（见下图）。现在已经是默认选项。

2017-06-29 17:00:14 3353

原创 python 处理xml文件

python 处理xml文件　　最近基因注释需要查阅文献是否报道过。由于基因很多，想了一个办法。NCBI上每个蛋白有关的登录号下会有文献的题目。根据序列比对结果，然后调取对应的文献。首先获取小麦族（147389）所有的199754条蛋白序列，截止日期是17-5-22.下载的格式是INSDSeq XML格式。下载之后需要转换成表格形式首先需要编辑下下载的xml文件，分别在文件头以及文件尾分别添加如下内

2017-05-22 16:42:12 576

原创修改文章那些事

修改文章那些事　　今天是周末。8：10闹铃响了，关了，继续设置了30分钟的倒计时，结果睁眼时已然9：50，匆忙起来洗刷下往实验室赶，今天相对往常确实晚了一些。在路上，收到老板的短信，让我找他一下，心里咯噔一些，今天来晚了被注意到了？心里不禁埋怨自己为啥不按闹铃时间起呢。怀着忐忑的心情敲开了门。原来是我们文章的事情。心里还是小小的高兴下，终于被临幸了（文章发给他大约2个月）。老板上午和下午都在

2017-05-21 21:16:40 612

原创计算CDS中密码子的数量

看到一个现金求助的题目：http://www.timedoo.com/task-id-1194.html代码如下：#!/usr/bin/env python# -*- coding: utf-8 -*-__author__ = "Sheng-Wei Ma"from Bio import SeqIOfrom collections import OrderedDictrecords = (r f

2017-04-10 13:11:36 2046

原创给GFF3格式文件添加fasta格式

给GFF3格式文件添加fasta格式　　是不是没见过带有序列的gff3格式。为啥这么做，这就要说到我最近在做的东西了。Jbrowse是一款基因组可视化浏览器。可以将基因组可视化以及大部分以基因组为基础的可视化，比如reads、SNP、QTL、GWAS、gene。支持fasta,bam,vcf,gff3等格式文件。说了这么多，给个实例，自己慢慢体会。同时附上官网地址和Genome Biology上的论

2017-03-31 11:06:28 3710

原创 Sambamba: process your BAM data faster!

Sambamba: process your BAM data faster!　　对于很大的(>100G)的bam文件，排序时间很慢不说，往往需要1天或更多的时间，但结果还会出错。如下边的错误. 经测试Sambamba表现较好，能够节省很多时间。随着接触的数据越来越多，感觉很简单的事情也需要花很多时间。不仅仅是数据多了的问题！[bam_sort_core] merging from 3288 fil

2017-03-25 17:33:59 5558

原创 detectMITE 安装以及使用

detectMITE 安装以及使用　　安装之前需要安装两个其他软件。第一个就是matlab,第二个是cd-hist.1、matlab的安装下载好之后：第一步是挂载iso文件mount -o loop Matlab801_MacUnix.iso /mnt/第二步是安装cd /mnt/./install -mode silent -agreeToLicense yes -fileInstallatio

2017-03-18 10:40:58 1319 1

原创 RNA_seq表达分析

输入文件input_v1.0.txt （三列，分别是 *.1.fastq.gz,*2.fastq.gz , *.sam）hisat2运行参数与流程（hisat2_IWGSCv1.0.py）#!/usr/bin/env python# -*- coding: utf-8 -*-__author__ = 'shengwei ma'__author_email__ = 'shengweima@icl

2017-03-17 11:55:50 2006

转载删除 setup.py 安装的 Python 软件包

删除 setup.py 安装的 Python 软件包　　在 CentOS 5.5 上通过 setup.py 安装了一个软件包。删除的时候发现 setup.py 没有 uninstall 选项。增加 –record 参数重新安装软件包，执行命令： python ./setup.py install --record install.txt删除安装文件，执行命令： cat install.txt |

2017-03-17 09:13:47 767

转载转座子可抑制mRNA翻译

3月3日，《Nature Communications》在线发表了我室水稻团队熊立仲课题组题为 “Translational repression by a miniature inverted-repeat transposable element in the 3′untranslated region” 的研究论文。该研究发现水稻中的一类DNA转座子具有翻译抑制功能。此研究使我们更深入了解基因

2017-03-15 21:02:25 1033

原创 MOSAIK安装

MOSAIK安装1、下载git clone https://github.com/wanpinglee/MOSAIK.git2、安装进入src文件夹，然后make #注意如果静态库没有安装可使用 yum install glibc-static 安装#或者修改includes/linux.inc文件，将"-static"删除3、使用还未探索，这是文章MOSAIK: A Hash-Based Alg

2017-03-07 11:03:53 468

转载非参数检验

非参数检验非参数检验是在总体方差未知或知道甚少的情况下，利用样本数据对总体分布形态等进行推断的方法。R语言可以进行各种不同的非参数检验，如Mann-Whitney U, Wilcoxon Signed Rank, Kruskal Wallis test 和 Friedman tests。曼-惠特尼U检验(Mann-Whitney U test) 或者叫做曼-惠特尼U检验，该检验主要是检验两组独立样本

2017-03-06 20:21:19 5293

原创二代测序短序列mapping新选择：Magic-BLAST

Magic-BLAST is a tool for mapping large next-generation RNA or DNA sequencing runs against a whole genome or transcriptome.前面一段时间看到NCBI上blast出了一个新系列，短序列的mapping。基本与blast使用体验一致。现在还未测试Magic-BLAST 是否适用于长

2017-03-03 17:35:02 5020

原创 GC content

计算核酸序列的GC含量（GC content）#!/usr/bin/env python# -*- coding: utf-8 -*- __author__ = 'shengwei ma'__author_email__ = 'shengweima@icloud.com'from Bio import SeqIOfrom Bio.SeqUtils import GCfor rec in S

2017-03-03 15:36:27 1563

原创 GFF3 TO GTF

GFF3 TO GTFgff3格式是使用gmap软件得到的。输入文件gff3的格式如下：chr1A IWGSCv1.0_gmap gene 11740 12074 . + . ID=TRIAE_CS42_1AS_TGACv1_023354_AA0082670.1.path1;Name=TRIAE_CS42_1AS_TGACv1_023354_AA0082670.1

2017-02-28 14:23:35 5867 1

原创 RNA_Seq差异表达分析流程

RNA_Seq差异表达分析流程1、数据下载ftp.sra.ebi.ac.uk/vol1/fastq/SRR122/005/SRR1228245/SRR1228245_1.fastq.gz;ftp.sra.ebi.ac.uk/vol1/fastq/SRR122/005/SRR1228245/SRR1228245_2.fastq.gzftp.sra.ebi.ac.uk/vol1/fastq/SRR12

2017-02-28 14:10:14 6922

原创 The pangenome of hexaploid bread wheat

The pangenome of hexaploid bread wheat　　今天看到这样一篇文章，着实高兴了一番。在小麦参考基因组刚刚公布，文章还未发表的情况下，突然跳出了一篇小麦宏基因组的文章，让人不得不得感叹，这都是什么世道。匆匆看过一遍之后，有点失望，这分析也太简单了，怪不得只发在了The plant jounarl上，需要挖掘的信息很多啊。　　文章一共使用了18个小麦品种，其中就包括中国

2017-02-26 22:14:01 699

原创 InterProScan 5.19版本以后提示 /lib64/libc.so.6: version `GLIBC_2.14' not found

InterProScan 5.19版本以后提示 /lib64/libc.so.6: version `GLIBC_2.14’ not found。包括5.20 5.21 5.22 5.23等。如果出现这个错误，可行的解决办法是：下载 ftp://ftp.ebi.ac.uk/pub/databases/interpro/iprscan/5/bin/sfld_binary.zip将该文件下的两个文件（s

2017-02-24 09:23:53 1282

转载 ABySS2.0安装及使用

ABySSABySS is a de novo sequence assembler intended for short paired-end reads and large genomes.ContentsQuick Start Install ABySS on Debian or UbuntuInstall ABySS on Mac OS XDependenciesCompilin

2017-02-21 16:44:26 5892

原创解决 libdl.so.2 not find

libdl.so.2 glibc-2.14/build/elf/sprof`GLIBC_2.14' not found strings /lib64/libc.so.6 | grep GLIBCGLIBC_2.2.5GLIBC_2.2.6GLIBC_2.3GLIBC_2.3.2GLIBC_2.3.3GLIBC_2.3.4GLIBC_2.4GLIBC_2.5GLIBC_2.6GLI

2017-02-18 23:32:58 16361

原创两个文件的合并

两个文件的合并分别有文件一和文件二，文件一和文件二都有一列内容是相同的。根据此列内容可将两者结合起来。文件一的格式如下 AEGTA04333 LOC_Os01g33520|LOC_Os01g33520.1 2.70E-25 LOC_Os01g33520|LOC_Os01g33520.1 PF02902 Ulp1 protease family, C-terminal cat

2017-02-18 18:03:07 2642

原创推荐：蛋白在线比对网站

推荐：蛋白在线比对网站https://www.ebi.ac.uk/Tools/hmmer/提交一条蛋白序列去调取数据库中库相似的蛋白序列。结果与blastp结果类似。但是比blastp结果多出来很多其他的东西，比如，结构域检测，序列的多重比对.结果部分共分为四项，Score, Taxonomy, Domain,Download.

2017-02-18 11:37:55 15054

原创 fasta转成txt

fasta转成txt有的时候需要将fasta格式的序列文件转换成以tab键分割的txt文件写了一个简单的命令。用法如下：fasta2txt -i input.fa -o out.txt代码如下#!/usr/bin/env python# -*- coding: utf-8 -*-__author__ = "Sheng-Wei Ma"import click #需要你的电脑安装click包@

2017-02-10 22:55:49 5409 1

原创水稻广谱与持久抗稻瘟病基因位点Pigm的抗病机制

水稻广谱与持久抗稻瘟病基因位点Pigm的抗病机制　　刚刚看到《科学》在线发表了何祖华研究组题与合作者完成的关于水稻持久广谱抗病的最新研究成果为“Epigenetic regulation of antagonistic receptors confers rice blast resistance with yield balance”的研究论文。　　从起源于我国农家品种的育种材料中鉴定了一个广谱持

2017-02-08 15:21:28 3246

原创根据GFF3文件统计外显子大小和数量以及内含子大小

根据GFF3文件统计外显子大小和数量以及内含子大小#!/usr/bin/env python# -*- coding: utf-8 -*-__author__ = "Sheng-Wei Ma"with open('TGACv1.cdna.gff3', 'r') as f: for line in f: lin = line.strip().split('\t')

2017-01-17 20:31:30 12971 5

原创 makeblastdb注意事项

makeblastdb注意事项本地blast，需要自行构建数据库。那么就要用到makeblastdb。这个命令很简单。USAGE makeblastdb [-h] [-help] [-in input_file] [-input_type type] -dbtype molecule_type [-title database_title] [-parse_seqids] [-h

2017-01-17 11:23:53 12050

原创遗传图谱比较

### 遗传图谱比较或者遗传图和物理图谱比较今天在Bioinformatics杂志上看到一篇关于遗传图谱之间比较的文章，感觉不错，特介绍如下。题目是：The Genetic Map Comparator: a user-friendly application to display and compare genetic mapsPMID: 28073759 DOI: 10.10

2017-01-13 10:21:46 4472 1

转载 Mikado - pick your transcript

Mikado - pick your transcript: a pipeline to determine and select the best RNA-Seq predictionMikado is a lightweight Python3 pipeline to identify the most useful or “best” set of transcripts from multi

2017-01-02 16:37:31 483

转载 Portcullis 剪切位点校正工具

PortcullisPortcullis stands for PORTable CULLing of Invalid Splice junctions from pre-aligned RNA-seq data. It is known that RNAseq mapping tools generate many invalid junction predictions, particularl

2017-01-02 16:07:35 700

carthagene-1.3.beta-Windows

wqy-zenhei-fonts

wqy-zenhei-fonts-common-0.9.45-3.el6.noarch.rpm

zlib macos10.8

空空如也