
生信
生物信息领域内相关内容
毒鸡蛋
这个作者很懒,什么都没留下…
展开
-
F1R2 和 F2R1 的定义
在双端测序中,每个 DNA 片段的两端都会被测序,生成两个读取(Reads),分别称为 Read 1 (R1) 和 Read 2 (R2)。对于链特异性文库,这两个读取不仅包含序列信息,还携带了关于原始转录本链方向的信息。含义:表示第一个读取(Forward Read 1, R1)是从正链(+ strand)测序而来,而第二个读取(Reverse Read 2, R2)是从负链(- strand)测序而来。应用场景:当构建链特异性文库时,F1R2 是指 R1 来自正链,R2 来自负链。原创 2025-01-15 10:17:55 · 355 阅读 · 0 评论 -
insert size、fragment、 inner 的解释,Filter BAM/SAM files by insert size
SAM 文件的第九列,即观察到的模板 LENgth (TLEN),可用作fragment 长度的近似值。这是近似值.原创 2023-04-04 17:02:33 · 949 阅读 · 0 评论 -
R语言---生信分析---ssGSEA基因集富集分析、免疫浸润
R语言---生信分析---ssGSEA基因集富集分析、免疫浸润原创 2022-12-14 21:23:39 · 3949 阅读 · 0 评论 -
R语言---生信分析---count转换成TPM、FPKM
R语言---生信分析---count转换成TPM、FPKM原创 2022-12-14 20:44:30 · 7651 阅读 · 0 评论 -
NCBI中各个符号代表意思
GCF是RefSeq,GCA是GenBank,GCF可能更可靠一些ACCESSION是NCBI序列数据中我们常用到编号(另一个是GI)。ACCESSION形式为原创 2021-11-30 16:34:38 · 3998 阅读 · 0 评论 -
8-OxoG oxidative artifacts (8-oxoguanine)氧化伪影
OxoG oxidative artifacts 氧化伪影123参考1鸟嘌呤(guanine)氧化成8-氧代鸟嘌呤(8-oxoguanine)是在基因组文库制备过程中,最常见的加接头前的伪影(artifacts)之一;形成的主要原因,是由于样品中的热量、剪切和金属污染共同产生(doi:10.1093/nar/gks1443)。8-氧代鸟嘌呤碱基(8-oxoguanine)可与胞嘧啶(cytosine)或腺嘌呤(adenine)配对,最终导致 PCR 扩增过程中 G→T 的碱基颠换。当模板链上的G被氧原创 2021-11-25 17:54:17 · 1898 阅读 · 0 评论 -
samtools命令查询-链接
samtools常用命令详解参考链接:https://www.jianshu.com/p/a3791cf16474https://www.jianshu.com/p/08d74365c64fsamtools 手册:http://www.htslib.org/doc/samtools-view.htmlSAM flags查询 https://broadinstitute.github.io/picard/explain-flags.html...原创 2021-11-24 10:33:33 · 481 阅读 · 0 评论 -
Taxonomy 的相关数据下载
ftp://ftp.ncbi.nih.gov/pub/taxonomy/linux怎么提取两个文件相同开头的行?awk 'NR==FNR{a[$1]=$0}NR>FNR{print a[$1],$2}' test1 test2原创 2021-11-24 10:13:51 · 405 阅读 · 0 评论 -
宏基因组 kraken2 + bracken 使用方法,& --memory-mapping 如何瞬间 加载内存中的文件
如何预加载内存文件,例:kraken2 --loading memorkraken2的基本使用方法,瞬间 加载内存中的文件参考kraken2的基本使用方法,# kraken用于分类cat ${TOOLDIR}/configure/kraken2.cfg | xargs \kraken2 \ --threads ${thread} \ --db $krakendb \ --classified-out $outdir/kraken/${sample}.classified.f原创 2021-08-09 10:16:11 · 1918 阅读 · 3 评论 -
NCBI 的 taxonomy的names.dmp 如何批量查找 scientific name
# -*- coding: utf-8 -*-"""Created on Mon Jul 7 17:17:13 2021@author: dujidan"""import sys# taxid <=> namedef taxid2name(input_taxid_list): taxid_name_file = 'taxonomy/names.dmp' taxid_name_dict = {} name_taxid_dict = {} w原创 2021-07-16 16:29:58 · 577 阅读 · 1 评论 -
NCBI 的 taxonomy的nodes.dmp 如何向上查找指定等级的taxid
NCBI 的 taxonomy的nodes.dmp 如何向上查找指定等级的taxid# -*- coding: utf-8 -*-"""Created on Mon Jul 7 17:17:13 2021@author: dujidan"""import sysnodes_file = 'taxonomy/nodes.dmp'def nodes2dict(nodes_file): nodes_p_r_dict = {} with open(nodes_file)原创 2021-07-16 16:15:35 · 842 阅读 · 1 评论 -
bed文件 合并区间 python 实现
bed文件 合并区间 python 实现目的python 实现其他实现目的将有overlap 的区域进行合并,生成无overlap 的文件本脚本仅实现中心算法部分,文件写入、写出部分,自行处理python 实现# -*- coding: utf-8 -*-"""Created on Thu Jul 14 08:18:15 2021@author: dujidan"""bed_list = [[4,5], [8,9], [2,6], [1,2]]sort_bed_list = li原创 2021-07-15 14:18:11 · 896 阅读 · 1 评论 -
如何从下载 UCSC 的 blat 等工具
如何从下载 UCSC 的 blatUCSC中的工具blat下载方式blat 问题UCSC中的工具http://hgdownload.soe.ucsc.edu/admin/exe/linux.x86_64/.blat下载方式#For linuxrsync -a rsync://hgdownload.soe.ucsc.edu/genome/admin/exe/linux.x86_64/blat/ ./#For MacOSrsync -a rsync://hgdownload.soe.ucsc.ed原创 2021-07-13 17:15:58 · 738 阅读 · 1 评论 -
如何下载NCBI的ftp数据
如何下载NCBI的ftp数据因为要从refseq中下载数据,知道 ftp 地址,浏览器打不开,用了好多下载工具都下不下来,所以有点难受。。。一般的 ftp 下载链接是长这样的:ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/001/696/305/GCF_001696305.1_UCN72.1但无意间找到NCBI的FQA,所以找到了下载的方法(手动狗头)主要的方法就是:把下载链接开头的 ftp 替换成 rsync,然后用 rsync 进行传输这个也是可以使用原创 2021-06-25 19:22:50 · 6853 阅读 · 1 评论 -
RPKM 的解释、计算
RPKM 的解释、计算看了很多说明,但还是不太明白,直到看了这个解释,实在是太清爽了,忽然间顿悟 有没有?留个链接,大家可以自己去查看下http://www.metagenomics.wiki/pdf/definition/rpkm-calculation....原创 2021-05-10 16:25:55 · 3292 阅读 · 1 评论 -
vcf 文件拼接(snp、indel)
bgzip -c raw_snp_vcf > raw_snp_bgzip.gz bcftools index raw_snp_bgzip.gz bgzip -c raw_indel_vcf > raw_indel_bgzip.gz bcftools index raw_indel_bgzip.gz bcftools concat -a -D raw_snp_bgzip.gz raw_indel_bgzip.gz -o ${raw_snp_indel_vcf...原创 2021-05-08 09:03:45 · 1939 阅读 · 0 评论 -
RNA 测序
原创 2021-05-08 09:01:57 · 265 阅读 · 0 评论 -
生存分析
# -*- coding: utf-8 -*-"""Created on Wed Apr 21 11:05:15 2021@author: dujidan"""from lifelines.datasets import load_waltonsfrom lifelines import KaplanMeierFitterfrom lifelines.utils import median_survival_timesdf = load_waltons()print(df.head(原创 2021-05-08 09:01:14 · 296 阅读 · 0 评论 -
生信分析学习笔记:(2)GO KEGG分析
生信分析学习笔记:(2)GO KEGG分析介绍教程1、富集分析 (Over-Representation Analysis )2、GSEA(Gene Set Enrichment Analysis)3、可视化实战练手项目介绍通常用的富集分析有ORA、FCS和拓扑三种方法。ORA简单来说就是超几何检验或Fisher精确检验,大同小异,都符合超几何检验,这也是目前用的最多的方法,优劣不谈。FCS的代表就是 GSEA,即基因集富集分析,优劣亦不谈。clusterProfiler提供了这两种富集分析方法。教程原创 2021-04-19 22:50:36 · 2782 阅读 · 0 评论 -
生信分析学习笔记:(1)火山图
生信分析学习笔记:(1)火山图背景知识介绍:代码展示由于一直没认真学习,经常性三天打鱼两天晒网的,导致自己落后于他人太多【大哭】,所以要立个flag,争取早日追上大家。今天第一天,先从最简单的 火山图 开始学起。现在看一下效果图背景知识介绍:1、每个点代表一个检测到的基因。2、横轴和纵轴用于固定点在空间的位置。一般横轴是Log2(foldchange),点越偏离中心,表示差异倍数越大。纵轴是-Log 10 (adjusted P-value),点越靠图的顶部表示差异越显著。3、点的大小和原创 2021-04-16 22:34:28 · 3534 阅读 · 0 评论 -
ONCOCNV 计算过程详解(1)
ONCOCNV 计算过程详解(1)计算原理计算原理Control.stats.txt、Test.stats.txt 中 最后一列的,计算原理readsCount / (sum_readslCount / sum_pos_len * pos_len)基于指定的bed文件,bedreadsCount : 指定区间内的 reads 数sum_readslCount:所有区间内的 reads 总数sum_pos_len:所有区间内的 碱基 总数;即,所有的 end - start 之和pos_le原创 2021-04-13 18:34:58 · 419 阅读 · 0 评论 -
从bam中截取指定位置的 reads 或深度
从bam中截取指定位置的 reads 或深度 samtools view -h recall.bam chr1:1116029-1116298 > get.sam # 获取指定位置reads samtools view -bS get.sam | samtools sort - -o get.bam # sam--->bam,排序 samtools index get.sam # 建索引 # 深度统计 samtools depth -r chr1:1116029-111原创 2021-04-13 18:23:25 · 5986 阅读 · 1 评论 -
使用linux命令 根据序列ID快速提取fastq序列
做生信的人经常会接触到一些fastq数据,有时想要从fastq文件中提取出某些序列来查看。一般情况可以使用grep命令,就可以实现grep -A 3 seq_id fastq.file# 匹配seq_id 并向下去3行但是,如果需要的序列很多,在使用grep就会很慢了,所以这里给出了 awk 的命令,速度简直快的飞起。awk -F ' ' 'NR==FNR {a[$1]=1; next} { if (a[substr($1,2)]) {print $0; getline b; print b.原创 2021-04-02 13:31:34 · 7132 阅读 · 0 评论 -
参考基因组 坐标转换 hg38 hg19
参考基因组 坐标转换 hg38 hg19俗话说,工欲善其事必先利其器首先,你要有一套nb的工具,这里就介绍一下 UCSC 的 liftOver,这就是用来做 不同版本基因组间的转换。1、下载必要的软件和文件# 下载坐标转换对应文件,hg19到hg38# wget http://hgdownload.soe.ucsc.edu/goldenPath/hg38/liftOver/hg38ToHg19.over.chain.gzrsync -avzP rsync://hgdownload.cse.u原创 2021-03-19 14:40:36 · 3529 阅读 · 1 评论 -
根据 基因名、bed 文件的基因位置,提取 DNA 序列 bedtools
根据 基因名、bed 文件的基因位置,提取 DNA 序列 bedtools1、根据 Gene Symbol 查找在序列上的位置2、根据 基因位置 提取参考上的序列1、根据 Gene Symbol 查找在序列上的位置从UCSC下载匹配的 文件链接: http://genome.ucsc.edu/cgi-bin/hgTables.1)、主要注意版本的信息,按默认就行2)、点击 get output,至下一页,就可以选择自己勾选自己想要的信息了3)、下载后的文件,三列分别是 Transcripti原创 2021-03-19 13:34:17 · 4324 阅读 · 0 评论 -
python 分析单细胞数据教程 scanpy---初探
python 分析单细胞数据 scanpy数据下载流程分析数据下载# !mkdir data# !wget http://cf.10xgenomics.com/samples/cell-exp/1.1.0/pbmc3k/pbmc3k_filtered_gene_bc_matrices.tar.gz -O data/pbmc3k_filtered_gene_bc_matrices.tar.gz# !cd data; tar -xzf pbmc3k_filtered_gene_bc_matrices.t原创 2021-03-18 20:23:37 · 3972 阅读 · 1 评论 -
HGVS命名规则
HGVS 命名规则由于文字描述实在是太难有整体概念了,所以我根据HGVS官方网站整理成树状结构,主次关系一目了然,主要内容都涵盖其中了,如果想要具体了解哪项也方便查询。啥也不说了,直接上图了。由于图片较大,如果不清晰的话,可以私信我原图。参考:HGVS官方网址...原创 2019-11-27 10:03:46 · 2534 阅读 · 2 评论 -
bismark判断甲基化的比对原理
bismark判断甲基化的比对原理bismark判断甲基化的比对原理参考bismark判断甲基化的比对原理我第一次看这个原理时看懂似懂非懂,就是感觉这个算法很巧妙很nb,后来自己一边画图一边想才理解这个算法的意思。废话不多言,咱们就直接看比对的原理的理解图吧。大写的是改变的,橘色为甲基化的。参考官网:http://www.bioinformatics.babraham.ac.uk/p...原创 2019-09-28 14:25:23 · 3355 阅读 · 1 评论 -
bedtools | 筛选重合区间 注释bed区间
bedtools | 筛选重合区间 注释bed区间前言1、对文件格式进行调整2.bedtools 进行注释总结前言通常我们手里有一个bed区间的范围,但只看这个没有什么概念,所以,要对这个bed区间进行注释,看看都是什么基因。1、对文件格式进行调整首先我们需要下载一个RefGene的文件,里面包含转录本及外显子等诸多信息。anno_file = 'gs.anno' # ucsc 下载的refgene文件bed_file = '44.bed' # 目标bed区间 我的是4列,但只用里前三列t原创 2021-03-02 11:41:20 · 3858 阅读 · 0 评论 -
分割 fasta 文件
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、pandas是什么?二、使用步骤1.引入库2.读入数据总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例可供参考一、pandas是什么?示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。二、使用步骤1.引入库代码原创 2020-12-23 17:11:39 · 1209 阅读 · 1 评论 -
GATK4 官网工具流程总结
GATK4 官网工具流程总结由于GATK4里的工具较多,所以将其整理成为图片的格式,以便有宏观的把握。要找什么就一目了然了。链接: GATK4官网.1、GATK4 里提供的所有分类和工具,可以实现什么功能。链接: GATK4官网.2、GATK4 推荐的最佳分析流程链接: GATK4官网....原创 2020-05-23 19:05:33 · 2667 阅读 · 0 评论