
生物信息
文章平均质量分 59
little^raccoon
来挖坑咯~~~
展开
-
从植物sRNA-seq数据中de novo预测miRNA的工具--miRDeep-P2
使用miRDeep-P2从sRNA-seq数据中de novo预测miRNA原创 2022-04-21 10:35:27 · 1090 阅读 · 0 评论 -
使用python批量下载ensembl数据库指定类型的文件
通过python的ftplib批量下载ensembl中指定类型的文件,并且同一个物种的文件保存在一个文件夹中#/usr/bin/pythonimport ftplibimport osimport time###设置下载路径,下载文件类型HOST='ftp.ensemblgenomes.org'DIRN='/pub/release-50/plants/fasta/'feature_lst=['cdna','cds','pep'] #如下载基因组文件,则加上‘dna’。后面if 'fa..原创 2021-03-24 20:46:54 · 1056 阅读 · 0 评论 -
Phytozome通过端口批量下载文件
Phytozome官网提供了四种数据下载方式,前三种为网页操作模式,在此不多介绍,在此主要介绍第四种官方manualDownload with CartDownload with web UIDownload with Globus serviceDownload with APIDownload with API1. 登陆账号curl 'https://signon.jgi.doe.gov/signon/create' --data-urlencode 'login=USER_NA.原创 2021-02-22 17:49:49 · 1600 阅读 · 0 评论 -
方便快捷简单的测序数据下载 — SRA Explorer
最近发现一个简单方便的下载测序数据的地方SRA Explorer用法很简单,试一下就会了,有几个小技巧:如果不翻墙,搜索速度会很慢搜索多个SRR库,可以用多种分隔符(逗号空格都行),点击搜索后会自动在关键词中间加 “AND”,但其实我们需要的是"OR",复制下来替换一下,再去搜索就可以了...原创 2020-12-12 16:31:43 · 947 阅读 · 0 评论 -
拟南芥基因注释
Athaliana_447_Araport11.annotation_info.txt文件下载链接 https://phytozome.jgi.doe.gov/pz/portal.html#!bulk?org=Org_Athaliana_er#!/usr/bin/perlmy $infile=shift;my $gene_num=shift;my $outfile=$infile.".annotation.txt";$gene_num-=1;my %anno_hash;$usage="原创 2020-12-01 16:24:52 · 2267 阅读 · 0 评论 -
perl实现根据序列ID从提取fasta文件序列
usage: perl thisScript.pl query.fa gene.lst outfile--------------------------------------------------------------------query.fa 基因组或其他需要从中提取的fasta格式文件gene.lst 需要提取的基因或染色体名字,有无>均可outfile 输出文件#!/bin/perl#unless(@ARGV==3){# die "usage: $0 <inpu.原创 2020-11-12 02:55:42 · 3360 阅读 · 2 评论 -
bed和gff文件按染色体号排序
注释文件通常按照染色体序号升序排列,而有时需要我们对获取的注释文件进行排序。对于chr01这种直接sort就可以,但是对于chr1, chr2… chr11这种,直接sort的结果是chr11排在chr2前面。解决这种情况的方法很简单,提取染色体中的数字,然后使用sort的-n参数就可以。而写成脚本复用起来也比较方便。有些物种染色体命名可能特殊,所以line 24的正则匹配要针对不同情况修改。现在的脚本匹配染色体命名为Chr chr CHR。#!/usr/bin/perl# 2020-11-12.原创 2020-11-12 02:49:21 · 1906 阅读 · 0 评论 -
Bio.Entrez下载PubMed中的文献
有些东西不常用,所以要多做记录#导入模块from Bio import Entrez, Medlineimport re#邮箱不是强制性,但NCBI要求出现问题时可以联系到用户。也可以在Entrez.esearch()的参数列表里设置email="aaa@163.com"Entrez.email = "aaa@163.com"#搜索关键词,就像在线搜索一样,可以用“AND”和“OR”。以及关键词类别,如[Year], [Organism], [Gene]等。keyword = 'miR15.原创 2020-11-06 16:06:16 · 1018 阅读 · 1 评论 -
GetOrganelle软件从ngs数据中组装线粒体、叶绿体基因组;GeSeq网站注释细胞系基因组
GetOrganelle安装conda install -c bioconda getorganelleor download from github unzip GetOrganelle-master.zip; cd GetOrganelle-master python setup.py install get_organelle_config.py --add embplant_pt,embplant_mt #v1.7.0版本后,默认的database需要手动下载,我在这里这下载了植物p原创 2020-08-29 16:08:07 · 7899 阅读 · 4 评论 -
使用Aspera上传数据到SRA
Install下载地址(网上有好多下载地址是错误的):https://downloads.asperasoft.com/en/downloads/8?listtar -zxvf ibm-aspera-connect-3.9.9.177872-linux-g2.12-64.tar./ibm-aspera-connect-3.9.9.177872-linux-g2.12-64找到安装路径,将bin文件夹添加到$PATHupload fastq.gz to SRAascp -i <path原创 2020-05-16 18:29:55 · 3830 阅读 · 0 评论 -
deepToolss 3.3.0用户手册(未完)
deepToolss 3.3.0用户手册Get helpParameters of decrease the run timeFiltering BAMs while processingGet helpbamCoverage --helpParameters of decrease the run timenumberofProcessors多进程 e.g. --numbero...翻译 2019-09-24 17:38:18 · 326 阅读 · 0 评论 -
blat参数详细说明
blat - Standalone BLAT v. 36x2 fast sequence search command line toolusage:blat database query [-ooc=11.ooc] output.pslwhere:database and query are each either a .fa, .nib or .2bit file, or a list...转载 2019-04-20 15:48:26 · 2099 阅读 · 0 评论 -
Bedops使用教程
感觉比bedtools更灵活一些。原创 2019-04-16 09:44:55 · 3140 阅读 · 1 评论 -
perl对blast结果bit score进行筛选,保留最大值
while(<>){ chomp; $line=$_; @line=split /\t/,$line; ($name, $score)=@line[0,11]; if(!exists($max{$name})){ push @names,$name; } if(!exists($max{$name})||$s>$max{$name}){ $max{$name...原创 2019-04-03 12:37:15 · 2617 阅读 · 8 评论 -
entrez搜索SRA数据库info
想下载拟南芥一些特定组织的RNAseq数据,通过entrez把各个库的info下载,然后筛选后进行下载Entrez Direct: E-utilities on the UNIX Command LineInstallation cd ~ /bin/bash perl -MNet::FTP -e \ '$ftp = new Net::FTP("ftp.ncbi.nlm....原创 2019-03-27 11:23:55 · 417 阅读 · 0 评论 -
perl实现序列反向互补
#!/usr/bin/perl -wprint"Input sequence:\n";chomp(my $seq = <STDIN>);$ seq =~ tr/atcguATCGU/tagcaTAGCA/;print “Reverse complement sequence:\n”print scalar reverse $seq;#或者使用下面这种形式输出,因为reve...原创 2019-03-23 00:54:04 · 3560 阅读 · 0 评论 -
perl实现计算GC含量
#!/usr/bin/perl -wunless(@ARGV==2){ die "Usage: perl $0 <input_fasta> <output> error:$!\n";}my($input, $output)=@ARGV;open INPUT, $input;open OUTPUT, ">$output";#===============...原创 2019-03-22 19:22:11 · 2520 阅读 · 0 评论 -
viroblast搭建blast网页
因为数据库中需要有blast功能,我们在网上搜到有viroblast,Sequenceserver 等开源的码可以用。viroblast是PHP写的,所以打算直接拿来用,然后改一下前端(捂脸,狗头)感谢小麦研究联盟和基因课本文记录仅作为little_raccoon的实验记录安装apache2 服务器sudo apt-get install apache2/var下会有/var...原创 2018-10-23 11:47:53 · 2371 阅读 · 13 评论 -
reads count文件转化为fasta格式文件(uniq reads)
在NCBI下载测序数据时有很多是以reads序列 + count数的格式,这种是作者去完接头并过滤掉低质量reads后的结果。下面实现将reads count格式转化为fasta格式cat reads_count.txtAAACCCGGGTTT 3ACAAGATTAG 5TAGACAGA 1python实现fw = open('./reads.fas', 'w')...原创 2018-10-26 13:00:40 · 678 阅读 · 1 评论 -
small RNA seq筛选reads长度
small RNA seq筛选reads长度,以筛选18~25 nt为例pythonfw = open('out', 'w')with open('inp', 'r') as fr: content = fr.readlines() for i in range((len(content) + 1)/4): site = 4 * i if ...原创 2018-10-27 16:15:11 · 1185 阅读 · 2 评论 -
reads count文件转化为fasta格式文件(redundant reads)
从NCBI下载的测序数据很多是去过接头的,并且整理成readscount格式,即每行第一列为reads,第二列为reads数,而我们需要把它整理成fasta格式,并且每个read都整理为一条序列原始文件:cat GSM3124755_WTB_PARE.csv | headGATCTTTCGAACTTTCCCAAC,1ACTCTCTGCACTAAACAAAA,1TTTTGTCATTG...原创 2018-11-09 19:48:45 · 1051 阅读 · 0 评论 -
CleaveLand--降解组测序数据分析
需要准备的数据:降解组测序数据QC后整理为redundant fasta格式转录本数据,fasta格式miRNA序列,fasta格式查看帮助文档CleaveLand4.pl --helpreadscount转为fasta格式(redundent reads)从NCBI下载的测序数据很多是去过接头的,并且整理成readscount格式,即每行第一列为reads,第二列为read...原创 2018-11-09 20:23:23 · 3455 阅读 · 0 评论 -
Phylobayes做Cross-Validation
Phylobayes做Cross-Validation原理Cross-validation (CV) is a general method for evaluating the fit of alternative models. The rationale is as follows: the dataset is randomly split into two (possibly un...翻译 2018-11-16 16:02:55 · 728 阅读 · 0 评论 -
python实现根据序列ID从提取fasta文件序列
当序列少的时候,我习惯用 grep -A 1 -f seq.lst seq.fas | sed ‘/^–$/d’ > out.fas提取,但是这次遇到了一个大文件,用grep就太费时了,然后又试了一下TBtools的提取序列功能,发现时间也很长,所以就写了个python。提取将近100万条reads耗时也就需要10s左右#!/usr/bin/python# -*- coding: u...原创 2018-11-21 10:30:16 · 8622 阅读 · 8 评论 -
GFF3提取fasta序列
awkawk '{print ">"$9"\n"$10}' file.gff3Pythonfr = open('./file.gff3', 'r')for line in fr.readlines(): name = '>' + line.strip().split('\t')[8] seq = line.strip().split('\t')[9] ...原创 2018-11-20 09:33:51 · 4786 阅读 · 2 评论 -
unique格式转化成miRDP输入的fasta格式
NCBI下载的测序数据有很多是去接头后的unique序列,第一列表示reads序列,第二列表示reads数,中间用\t分隔。我们需要对这种格式整理成miRDP软件输入的fasta格式zcat GSM932400_GEK51_unique.txt.gz | head -n 5TGAAGCTGCCAGCATGATCTA 240181GACCGCATAGCGCAGTGGA 45144...原创 2018-11-24 23:58:17 · 487 阅读 · 0 评论 -
fastq格式转为unique的fasta格式
去接头后的fastq格式需要转为unique的fasta格式,用于miRDP的下一步分析。用python的.count()感觉速度太慢,用awk速度很快。head -n 12 SRR7406454_trimmed.fq@SRR7406454.1 HISEQ:279:HVMFNBCXX:1:1101:1442:2039 length=50NTTGGATTGAAGGGAGCTCTA+SR...原创 2018-11-26 14:07:21 · 926 阅读 · 0 评论 -
MCScanX数据前期处理(Ensemble Plant和Phytozome下载)
软件操作步骤在简书上的《基因组共线性工具MCScanX使用说明》一文描述以非常详尽,有需者可以跳转学习。本文专注于如何将Ensemble plant下载数据整理成MCScanX输入格式因为我在后期需要添加非编码序列,所以在Ensemble Plant下载的CDS序列,Protein我想规则也是类似的;GFF3文件处理awk '{if($3=="mRNA") print $1"\t"$9"...原创 2018-11-27 17:34:07 · 3037 阅读 · 1 评论 -
unique fasta reads转为redundant fasta reads
#!/usr/bin/pythonimport argparseparser = argparse.ArgumentParser()parser.add_argument("inputFile", help="input a sequence file", type=str)args = parser.parse_args()inp = args.inputFilefr = open...原创 2019-01-24 14:11:04 · 171 阅读 · 0 评论 -
UCSC_2bit基因组格式ToFASTA格式
twoBitToFa在UCSC下载小鼠的mm10版本基因组数据时没有找到.fa文件,发现了一个mm10.2bit文件,估计是把基因组序列存成了二进制文件,翻看文件说明:mm10.2bit - contains the complete mouse/mm10 genome sequence in the 2bit file format. Repeats from RepeatMasker a...原创 2019-01-09 14:42:14 · 3084 阅读 · 0 评论 -
perl根据ID提取序列
#!/usr/bin/perl -wunless(@ARGV==3){ die "Usage: perl $0 <ID_lst> <input_fasta> <output> error:$!\n";}my($lst, $input, $output)=@ARGV;open LST, $lst;open INPUT, $input;open OU...原创 2019-03-21 19:23:11 · 3082 阅读 · 2 评论 -
从blast结果中取出每个query搜到的evalue最小的结果
在做多基因blast时,通常每个基因找到的匹配序列很多。这时习惯根据evalue来进行筛选,evalue较小的其相似性更高。下面提供两种方法解决。一 linux命令sort -k 11 a.test | sort -k 1,1 -u第11列为evalue值,第一列为基因名,先根据evalue升序排列,然后根据基因名去重。默认会保留最上面的一条记录,即evalue最小值。二 pan...原创 2018-10-20 18:36:32 · 8075 阅读 · 3 评论