
NGS
高锦-生信
生物信息 + 深度学习
展开
-
10X cellranger count 后的数据认识和使用
对SRR7722937的三个fastq文件运行cellranger count ,完成后得到结果文件存于SRR7722937,打开其下的outs文件夹 下游分析所需的是红框的文件,利用R读入以上文件,形成expression_matrix#!/usr/bin/Rlibrary(Matrix)cellbarcodes ...原创 2019-12-27 15:45:56 · 2823 阅读 · 2 评论 -
10X_Genomics_scRNA_Seq 名词解释
Sample(样本):单个生物来源(血液、组织等)提取的细胞混悬液。(标示是index)Library(文库):从一个样本制备的1个10X-barcoded测序文库,对应着一个10x Chromium Controller run 的单芯片通道。(标示是barcoded)Flowcell:一个类似载玻片的测序芯片,包含了一个run的测序数据,该数据可根据芯片上的 lane 和 样本的 in...原创 2019-12-20 16:21:21 · 1971 阅读 · 0 评论 -
10X genomics scRNA_Seq 原理概念解说
单细胞分离--测序原理10X Genomics采用Drop-Seq技术, 横向孔道逐个导入凝胶微珠Gel beads,第一个纵向道输入细胞。当凝胶微珠和细胞碰撞会被吸附在微珠上,然后通过微流控技术运送到第二个纵向通道(“油管”)。这时就会形成一个个的油滴GEMs(一个油滴就是一个凝胶微珠,也就是一个单细胞),然后收集在EP管中。每一个凝胶微珠都布满了不同的Barcode和UMI连接的序列,然后...原创 2019-12-20 11:09:57 · 13972 阅读 · 2 评论 -
PICRUSt工具使用过程中的概念理解
1. MiSeq 2x250 16S V4 下机测序数据经下面pipeline代码转换为OTU table#!/bin/bashif [ x$usearch == x ] ; then echo Must set \$usearch >> /dev/stderr exit 1firm -rf ../outmkdir -p ../outcd ../out# M...原创 2019-12-17 17:14:24 · 2295 阅读 · 1 评论 -
生物信息名称备忘录
生殖系突变(Germline mutation) 与体细胞突变 (Somatic mutation)生殖系突变(英语:Germline mutation)是指在生殖细胞中发生的任何可检测、可遗传的突变。 在生殖细胞系以外的细胞中发生的突变称为体细胞突变,也称作获得性突变。生殖系突变和体细胞突变的不同在于:生殖系突变可遗传给后代,而体细胞中发生的突变不能。鉴定体细胞突变的金标准方法是使用同...原创 2019-12-16 11:12:10 · 335 阅读 · 0 评论 -
高通量测序中常见名词解释
测序数据量:常见的测序量概念有 M 和 G ,for example 10M 和 10G解释:M 常用于描述reads 的数量。 例如 10M 就是 10 *10^6 条readsG 常用于描述这一批次测序共有的碱基数量。 例如 10G 就是10*10^9个碱基M 和 G 之间的关系比如说对于3G测序量的理解:3G指有 5*10^9 个碱基,假如采取illumia的...原创 2019-12-13 17:11:47 · 6956 阅读 · 0 评论 -
SNP连锁不平衡图(LD)可视化R包LDheatmap的使用
理解SNPs之间的联系或连锁不平衡(LD)模式对于单体型的选择具有重要作用,然而,对于密集的SNP图谱,随着区域内SNPs数量的增加,很难直接从复杂的VCF文件来看出SNPs间的连锁不平衡关系。LDheatmap就是这样一个能够可视化SNPs之间连锁不平衡关系的R包。先举个小例子:随机创建100个样本5个SNPs的基因型矩阵,并实现LD热图:rm(list=ls())set.see...转载 2018-09-20 10:31:50 · 15422 阅读 · 0 评论 -
甲基化芯片入门学习-数据分析(三)
之前甲基化入门学习时本打算重复下提纲给的文献,但是后来学习过程中发现GEO上下载的RAW文件里没有该样本信息文件,就用了ChAMP包的测试数据。最后想了想,还是决定找一篇比较简单的文献的来实践使用下甲基化450K芯片的分析过程。看了几篇关于人的甲基化文献(数据在GEO上的),挑了一篇Intrinsic gene changes determine the successful establishm...转载 2018-09-03 10:35:32 · 10102 阅读 · 0 评论 -
甲基化芯片入门学习-ChAMP包(二)
DNA甲基化芯片分析有不少R包实现,如:minfi、lumi以及ChAMP等,我只粗略看过minfi和ChAMP,发现ChAMP的功能更加齐全以及使用也较为简单,并且其也集成了minfi包的部分功能,所以下面以ChAMP包作为学习对象ChAMP包的安装source("https://bioconductor.org/biocLite.R")options(BioC_mirror="ht...转载 2018-09-03 10:34:36 · 9793 阅读 · 0 评论 -
甲基化芯片入门学习-基础知识(一)
基本概念梳理 什么是DNA甲基化 DNA甲基化是表观遗传学的中最为常见的一种修饰,其主要形式包括:5-甲基胞嘧啶 (5-mC)、少量的N6-甲基腺嘌呤 (N6-mA) 以及7-甲基鸟嘌呤(7-mG)。 目前常说的DNA甲基化一般指CpG岛甲基化,即在DNA甲基化转移酶(DNMTs)的作用下使CpG二核苷酸5’端的胞嘧啶转变为5’甲基胞嘧啶。 哺乳动物体细胞的DNA胞嘧啶甲基化主要...转载 2018-09-03 10:33:12 · 10667 阅读 · 0 评论 -
Sam&bam文件格式详解
在SAM输出的结果中每一行都包括十二项通过Tab分隔(\t),从左到右分别是:1 QNAME,序列的名字(Read的名字)2 FLAG, 概括出一个合适的标记,各个数字分别代表1 序列是一对序列中的一个2 比对结果是一个pair-end比对的末端4 没有找到位点8 这个序列是pair中的一个但是没有找到位点16 在这个比对上的位点,序列与参考序列反向互补32 ...转载 2018-06-21 09:46:48 · 7530 阅读 · 1 评论 -
bwa 参数中文解析
名称 bwa – Burrows-Wheeler Alignment Tool内容摘要描述命令行与选项SAM 比对格式短序列比对注意事项 比对精确性 估计插入大小分布 内存需求 速度Bwa-0.6中的改变其他作者引用与授权历史摘要b w a i n d e x r e f . f ab w a m e m r e f . f a r e a d s...转载 2018-03-05 14:17:46 · 9986 阅读 · 0 评论 -
samtools 使用帮助
1. viewview命令的主要功能是:将sam文件转换成bam文件;然后对bam文件进行各种操作,比如数据的排序(不属于本命令的功能)和提取(这些操作是对bam文件进行的,因而当输入为sam文件的时候,不能进行该操作);最后将排序或提取得到的数据输出为bam或sam(默认的)格式。bam文件优点:bam文件为二进制文件,占用的磁盘空间比sam文本文件小;利用bam二进制文件的运算速度快。转载 2018-02-07 13:33:50 · 1243 阅读 · 0 评论 -
Pileup 格式详解
Pileup 格式最初是由Sanger Institute的Tony Cox 和 Zemin Ning 使用的,描述了染色体上每个位置的碱基信息。 可以用来 SNP/indel calling, 也可以直接用眼睛看一下排列的情况。Pileup 文件一般是由SAMtools从sorted bam 文件生成。samtools mpileup -f ../crrbwaidx/cr转载 2018-02-07 10:03:37 · 7444 阅读 · 0 评论 -
bed文件格式详解
BED 文件格式是一个可变方式的数据线,用来描述注释的数据。BED线有3个要求的字段和9个额外的字段。每条线的字段数目必须是任意单条数据的在注释上一致。可选字段的序试结合低数字的字段必须流行如果高位字段被使用。首先是三个要求的BED字段1,chrom, 染色体或scafflold 的名字(eg chr3, chrY, chr2_random, scaffold0671转载 2018-02-07 09:25:43 · 18479 阅读 · 0 评论 -
全基因组重测序数据分析
全基因组重测序数据分析转自:http://www.biodiscover.com/news/research/95875.html1. 简介(Introduction)通过高通量测序识别发现de novo的somatic和germ line 突变,结构变异-SNV,包括重排突变(deletioin, duplication 以及copy number variation转载 2018-01-16 13:57:46 · 32791 阅读 · 0 评论 -
GDCRNATools的安装与使用---TCGA数据下载与分析工具
GDCRNATools - An R package for downloading, organizing, and integrative analyzing lncRNA, mRNA, and miRNA data in GDCIntroductionThe Genomic Data Commons (GDC) maintains standardized genomic,转载 2018-01-05 13:07:48 · 16930 阅读 · 9 评论 -
TCGA数据下载和整理工具----GDCRNATools
TCGA数据下载和整理的网站及软件发表很多了,比如Broad GDAC Firehose, Oncomine, TCGAbiolinks,TCGA-Assembler, TCGA2STAT,RTCGAToolbox等等,这些网站或软件要么使用的是TCGA更新前的数据,要么运行起来比较繁琐。当然各个工具都有其优势所在。之前在论坛里分享了自己下载和整理TCGA数据的Python代码。最近忙里偷转载 2018-01-04 15:29:18 · 20220 阅读 · 8 评论 -
OMIM使用简要说明
OMIM使用简要说明1.OMIM 为“0nline MendelianInheritance in Man”的简称,它通过对新的病症分类并命名、收录表型和相关病因基因的关系来收录人类孟德尔疾病信息。所以我们可以通过表型或者基因型来搜索对应的信息。通过网址登陆到OMIM的主页:https://www.omim.org/用户可通过主页中央的搜索框可完成简单的搜索任务,主页顶转载 2018-01-03 11:09:48 · 19816 阅读 · 1 评论 -
VarScan2使用
download varscan2 the current version, refer to GitHub at https://github.com/dkoboldt/varscan引用率貌似还可以的一个variants检测软件,用来Call Indel自然不在话下。前面我们说到samtools里面的mpileup,他生成的结果可以给bcftools用来Call Inde转载 2018-01-03 10:16:01 · 13665 阅读 · 1 评论 -
The GEMINI database 表头详解
The GEMINI database schemaThe variants tableCore VCF fieldscolumn_nametypenoteschromSTRINGThe chromosome on which the variant resides (from VCF CHRO转载 2017-12-29 10:04:33 · 1599 阅读 · 0 评论 -
Calling SNPs/INDELs with SAMtools/BCFtools
Calling SNPs/INDELs with SAMtools/BCFtoolsThe basic Command lineSuppose we have reference sequences in ref.fa, indexed by samtools faidx, and position sorted alignment files aln1.bam and aln2.转载 2017-12-25 11:37:48 · 3029 阅读 · 0 评论 -
使用aspera下载.fastq.gz和.sra数据
NCBI-SRA和EBI-ENA数据库SRA数据库: Sequence Read Archive:隶属NCBI (National Center for Biotechnology Information),它是一个保存高通量测序原始数据以及比对信息和元数据 (metadata) 的数据库,所有已发表的文献中高通量测序数据基本都上传至此,方便其他研究者下载及再研究。其中的数据则是通过压转载 2017-12-25 11:12:07 · 23505 阅读 · 6 评论 -
bowtie2+Samtools+GATK使用方法简介
1) Phase I: Raw data processing (对于mapping结果的处理) (1) 通过mapping得到原始的mapping结果GATK要求输入文件是BAM格式的,我们使用bowtie2进行mapping,bowtie2速度上比较有优势,而且输出的结果就是SAM格式的,用samtools转换成BAM格式即可,以下为bowtie2进转载 2017-12-22 08:47:06 · 3619 阅读 · 0 评论 -
pyvcf 模块
安装:sudo pip install pyvcf然后报错说没有counter模块,于是:sudo pip install counter然后就安装好了 简单实用:import vcf myvcf = vcf.Reader(open('testpyvcf', 'r')) #和python内置的文件类型一样,循环完不会从头开始。 f转载 2017-12-20 14:29:25 · 2209 阅读 · 0 评论 -
RPKM与TPM值的区别
对于RNA-Seq,目前主流还是用RPKM/FPKM来形容一个基因的表达量。有人说TPM更好。RPKM定义:有一个基因A,它在这个样本的转录组数据中被测序而且mapping到基因组了 5000个的reads,而这个基因A长度是10K,我们总测序文库是50M,所以这个基因A的RPKM值是 5000除以10,再除以50,为10. 就是把基因的reads数量根据基因长度和样本测序文库来标准化(n转载 2017-12-13 13:39:02 · 29560 阅读 · 0 评论 -
仅对特定的基因call variation
对特定的基因call variation有这个需求,是因为我们经常对某些细胞系进行有针对性的设计变异,比如BAF155的R1064K呀,H3F3A的K27呀,那我我们拿到高通量测序数据的时候,就肯定希望可以快速的看看这个基因是否被突变成功了。现在比对几乎不耗费什么时间了,但是得到的sam要sort的时候还是蛮耗费时间的。假设,我们已经得到了所有样本的sort好的bam文件,想看看自己设计的转载 2017-12-13 13:17:28 · 658 阅读 · 0 评论 -
ANNOVAR 注释软件
ANNOVAR简介ANNOVAR是由王凯编写的一个注释软件,可以对SNP和indel进行注释,也可以进行变异的过滤筛选。ANNOVAR能够利用最新的数据来分析各种基因组中的遗传变异。主要包含三种不同的注释方法,Gene-based Annotation(基于基因的注释)、Region-based Annotation(基于区域的注释)、Filter-based Annotation转载 2017-12-13 13:03:49 · 23275 阅读 · 0 评论 -
samtools 常用命令详解
samtools 常用命令详解转载 2017-12-08 09:58:03 · 2823 阅读 · 0 评论 -
二代测序call indel 总结
二代测序call indel 总结转载 2017-12-06 14:45:08 · 7146 阅读 · 0 评论 -
WGS,WES,RNA-seq组与ChIP-seq之间的异同
WGS,WES,RNA-seq组与ChIP-seq之间的异同转载 2017-12-06 14:00:10 · 6066 阅读 · 0 评论 -
NGS基础名词解释(1)
NGS基础名词解释转载 2017-12-06 13:44:21 · 5741 阅读 · 0 评论 -
htseq-count的使用
HTSeq-count使用转载 2017-10-17 10:34:20 · 28362 阅读 · 2 评论 -
fastqc_report解释
fastqc_report解释转载 2017-05-05 10:41:03 · 5295 阅读 · 0 评论