
bioinformation
sunchengquan
这个作者很懒,什么都没留下…
展开
-
转录组分析R基础知识
数据wget https://ndownloader.figshare.com/articles/3219685?private_link=1d788fd384d33e913a2a -O 3219685.zip!ls -l 3219685/总用量 2588-rw-r--r-- 1 root root 1340161 12月 9 07:43 GSE60450_Lactation-Ge...原创 2018-12-09 11:58:39 · 9674 阅读 · 0 评论 -
生物信息数据格式:fasta格式
文章目录格式说明查看fasta实例演练读取fasta文件,并打印把每条FASTA序列连成一行然后输出把每条FASTA序列按一定长度输出提取fasta.name中名字对应的test2.fa的序列,并输出到屏幕。格式说明Fasta格式首先以大于号>开头,接着是序列的标识符,然后是序列的描述信息。换行后是序列信息,序列中允许空格,换行,空行,直到下一个大于号,表示该序列的结束。查看fasta...原创 2018-12-14 17:58:30 · 17766 阅读 · 6 评论 -
生物信息数据格式:fastq格式
文章目录格式说明实例演练判断fastq序列编码是Phred33(Illumina1.8+) or Phred64(Illumina1.3+)fastq转换fasta格式Linux 操作fastq获取数据统计reads_1.fq文件中共有多少条序列信息输出reads_1.fq文件中的标识符(即以@开头的那一行)输出reads_1.fq文件中所有序列的信息(即每个序列的第二行)输出reads_1.fq...原创 2020-03-05 09:14:41 · 39566 阅读 · 1 评论 -
sed编辑生物信息数据
文章目录stream editor 流编辑器sed工具工作原理及特性sed 命令NAMESYNOPSISOptionsAddressCommand地址定界常规方法基因组注释文件(gtf)数据示例:空地址:即对全文进行处理2 单地址3 地址范围4 步进地址表示法sed编辑命令d : 删除模式空间中的内容p : 显示被模式框定的内容a \line : 追加line行至匹配到行的后面,如果是多行可使用...原创 2018-12-15 13:52:00 · 2132 阅读 · 0 评论 -
生物信息数据格式:gff,gtf格式
文章目录gff示例gtf示例gff和gtf的区别gffGFF(General Feature Format)是一种用来描述基因组特征的文件,现在我们所使用的大部分都是第三版(gff3)。gff文件除gff1以外均由9列数据组成,前8列在gff的3个版本中信息都是相同的,只是名称不同:第9列attributes的内容存在很大的版本特异性。这9列信息(以gff3为例)分别是:seqid so...原创 2018-12-15 14:00:08 · 15717 阅读 · 0 评论 -
生物信息数据格式:bed格式
文章目录BED format(基因组的注释文件)基本列附加列示例[Bedtools简介](https://bedtools.readthedocs.io/en/latest/index.html)下载安装演示版的bed文件 (demo.bed)我们的基因组文件(genome.txt)[bedtools slop](http://bedtools.readthedocs.io/en/latest/c...原创 2018-12-15 22:01:40 · 23885 阅读 · 0 评论 -
bedtools指南
文章目录官方文档下载安装演示版的bed文件 (demo.bed)我们的基因组文件(genome.txt)两侧的运算填充运算下载测试数据提取与genes.gff的间隔相对应的序列获取测试数据用这个间隔文件去分割bam文件实战案例获取数据bedtools intersect从注释文件中,选取启动子找到跟每个exon最近的启动子官方文档https://bedtools.readthedocs.io...原创 2018-12-16 12:09:30 · 8322 阅读 · 0 评论 -
samtools用法详解
文章目录下载安装测试数据命令详解dictfaidxindexreheaderrmdupcatmergempileup查看参数mpileup生成的结果有参考序列的pileup使用生成一个简单的vcf文件sort查看用法主要参数释义:splitfastqfastabedcovdepthflagstatidxstatsstatsflagstviewviewbam文件转换为sam文件sam文件转换为bam...原创 2018-12-21 22:33:35 · 16850 阅读 · 0 评论 -
转录组背景知识
RNA-seq 相关概念RNA-Seq具体来说,首先对生物样品中的RNA反转录为cDNA,而后,将这些cDNA打碎为较小片段后,上机进行测序转录组(transcriptome)是指特定类型细胞中全体转录本(transcript)的集合RNA种类RNAexplanationcoding RNA:mRNA信使RNAnoncoding RNA:rRNA核糖体RN...原创 2018-12-31 16:03:22 · 7249 阅读 · 1 评论 -
转录组分析流程
文章目录分析流程概述下载测试数据数据质量控制Tophat –> Cufflink –> Cuffdiff流程代码Subread -> featureCounts -> DESeq2流程代码DESeq2差异分析读取数据,提取表达矩阵表型数据读取,样本分组信息可视化样本间的相似性构建DESeqDataSet(dds)对象使用rlo原创 2018-12-31 16:33:59 · 36043 阅读 · 12 评论 -
转录组分析专题
#转录组分析中的R基础知识#转录组背景知识#转录组分析流程原创 2018-12-31 16:39:44 · 1305 阅读 · 0 评论 -
生物信息数据格式:vcf格式
格式说明VCF格式,Variant Call Format 变异判读文件格式分为两部分内容:以“#”开头的注释部分;没有“#”开头的主体部分先讲VCF文件主题部分的结构CHROM :表示变异位点是在哪个contig里call出来的,如果是人类全基因组的话那就是chr1…chr22,chrX,Y,M了POS: 变异位点相对于参考基因组所在的位置,如果是indel,就是第一个碱基所在的位置...原创 2019-01-28 15:01:47 · 4421 阅读 · 0 评论 -
生物信息数据格式:sam,bam格式
数据获取首先安装bowtie短序列比对软件wget https://sourceforge.net/projects/bowtie-bio/files/bowtie2/2.3.4.3/bowtie2-2.3.4.3-linux-x86_64.zipunzip bowtie2-2.3.4.3-linux-x86_64.zipln -s ~/local/app/bowtie2-2.3.4.3...原创 2018-12-19 13:55:48 · 5581 阅读 · 0 评论 -
生信人的linux考试20题解析
http://www.bio-info-trainee.com/2900.html一、在任意文件夹下面创建形如 1/2/3/4/5/6/7/8/9 格式的文件夹系列[sunchengquan 21:42:32 ~/test]$ mkdir -p 1/2/3/4/5/6/7/8/9[sunchengquan 21:42:55 ~/test]$ ls000.csv chrY_SNP_p...原创 2018-12-01 20:00:10 · 7761 阅读 · 0 评论 -
安装和使用Entrez Direct
安装和使用Entrez Direct软件#到home目录下cd#等同于用~/ ,~/ 表示你的home目录cd ~/#创建/local/app目录来存放需要安装的程序mkdir -p ~/local/app#进入app目录cd ~/local/app获取entrez direct 工具包#大写 -O 是使得curl 命令去识别url上的文件名(作为下载后的文件名字)curl ftp:/原创 2017-11-20 21:25:19 · 6589 阅读 · 8 评论 -
人类基因组本地化及简单分析
在NCBI上下载 GRCh38wget ftp://ftp.ncbi.nlm.nih.gov/refseq/H_sapiens/annotation/GRCh38_latest/refseq_identifiers/GRCh38_latest_genomic.fna.gz解压文件(.fasta, .fa, .fna, .fsa, .mpfa)gzip -d GRCh38_latest_genomi原创 2017-11-20 20:59:53 · 2109 阅读 · 0 评论 -
Biopython从NCBI搜索和取回数据库记录
Entrez模块Entrez提供了链向在NCBI服务器的esearch和efetch工具的连接列出Entrez模块的方法和属性from Bio import Entrezs = dir(Entrez)print(s)运行结果:['_HTTPError', '__builtins__', '__cached__', '__doc__', '__file__', '__loader__', '__原创 2017-12-04 14:52:11 · 6030 阅读 · 0 评论 -
安装和使用SRA toolkit
进入软件安装目录cd ~/local/app/下载 SRA toolkit (确保你的下载链接对应的软件版本是跟你的系统一致的)curl -O https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.8.2/sratoolkit.2.8.2-centos_linux64.tar.gz解压tar xzvf sratoolkit.2.8...原创 2018-04-01 21:03:48 · 25637 阅读 · 2 评论 -
Biopython操作DNA,RNA和蛋白质序列
如何将一条DNA编码序列翻译成蛋白质序列,并写入fasta文件读入DNA序列from Bio import Seqfrom Bio.Alphabet import IUPACdna = open("data/hemoglobin-gene.txt").read().strip()dna = Seq.Seq(dna, IUPAC.unambiguous_dna)print(dna...原创 2018-04-03 16:59:43 · 8871 阅读 · 0 评论 -
awk编程实战
关于linux学习中awk的基本知识参考: linux文本编辑之awk awk分析拟南芥gff文件下载拟南芥gff文件curl -O ftp://ftp.arabidopsis.org/home/tair/Genes/TAIR10_genome_release/TAIR10_gff3/TAIR10_GFF3_genes.gff我们可以先来查看一下gff格式是什么样子的les...原创 2018-05-11 09:20:28 · 9084 阅读 · 0 评论 -
vcftools用法详解
vcftools是一种可以对VCF文件和BCF文件进行格式转换及过滤的工具参考:vcftools使用手册输入参数–vcf < input_filename > 支持v4.0、v4.1或者v4.2版本的VCF文件–gzvcf < input_filename > 通过gzipped压缩过的VCF文件–bcf < input_filename > B原创 2019-01-28 15:03:19 · 27039 阅读 · 4 评论