- 博客(31)
- 收藏
- 关注
原创 哑变量的基本介绍及R语言设置
哑变量(Dummy Variable),又称为虚拟变量、虚设变量或名义变量,从名称上看就知道,它是人为虚设的变量,通常取值为0或1,来反映某个变量的不同属性。对于有n个分类属性的自变量,通常需要选取1个分类作为参照,因此可以产生n-1个哑变量。
2022-04-16 00:04:51
13323
3
原创 plink格式文件的介绍及相互转换
Plink常用的文件格式有两套:map/ped 和 bim/fam/bed。两组文件均没有列名,且每一列表示的意思是一定的。几种格式之间可以相互转换。推荐使用BED/BIM/FAM这种格式,读取速度快。
2021-11-29 15:16:36
26360
2
原创 分位数回归(quantile regression)R实现
分位数回归已经获得了巨大的发展,不仅可以进行简单的横截面数据的估计,而且还可以进行panel数据模型估计、干预效应模型估计、计数模型估计、因变量是区间值的logistic模型估计、工具变量估计等。
2021-11-29 10:56:13
12237
2
原创 【软件介绍】IGV软件的安装和基本介绍
IGV(Integrative Genomics Viewer)是一个高性能的可视化工具,可以交互式的察看综合的基因组相关数据,友好的支持多种数据类型,包括芯片、二代测序和基因组注释数据等。IGV是基于Java的工具,且在不断更新当中,不同版本的IGV可能需要不同的Java版本。
2021-10-09 01:35:54
18888
原创 NGS数据分析实践:06. 数据预处理 - 序列比对+PCR重复标记+Indel区域重比对+碱基质量重校正
一般变异识别之前需要进行数据预处理,包括序列比对、排序、PCR重复标记、Indel区域重比对和碱基质量重校正等步骤。
2021-10-06 22:56:01
5826
3
原创 NGS数据分析实践:05. 测序数据的基本质控 [2] - MultiQC
MultiQC是基于Python的小工具,能很好地解决这个问题,其强大的功能主要体现在以下三个方面:(1) 能将测序数据的多个QC结果整合成一个HTLM网页交互式报告,同时也能导出pdf文件;(2) 支持多种分析类型的质控结果查看,如:RNAseq、Whole-Genome Seq、Bisulfite Seq、Hi-C和MultiQC_NGI;(3) 目前支持整合111种软件分析的结果,而且支持的软件还在持续增加,也可以自己写一个插件。
2021-10-02 16:10:03
2583
原创 NGS数据分析实践:05. 测序数据的基本质控 [1] - FastQC
一般我们可以从如下几个方面来分析测序数据质量:read各个位置的碱基质量值分布 (Per base sequence quality)碱基的总体质量值分布 (Per sequence quality scores)read各个位置上碱基分布比例 (Per base sequence content)GC含量分布 (Per sequence GC content)read各位置的N含量 (Per base N content)read是否还包含测序的接头序列 (Adapter Content)
2021-10-01 17:30:30
9694
1
原创 NGS数据分析实践:04. 准备测序数据
本次NGS数据,采用多重PCR靶向扩增子测序技术,在Illunima Hiseq X Ten测序平台上进行双末端(paired-end,PE)测序。由于是双端测序,每个样本对应两个文件,分别用R1和R2表示。公司返回了原始下机数据(Raw data)和过滤后数据(Clean data),数据文件格式均为.fastq.gz。
2021-09-30 02:45:03
2542
原创 NGS数据分析实践:03. 涉及的常用数据格式[5] - vcf格式
把sam格式的文本文件压缩成二进制bam文件可以节省空间,如果对参考基因组上面的各个区段标记它们的性质,比如哪些区域是外显子、内含子、UTR等等,这就是gtf/gff格式。如果只是为了单纯描述某个基因组区域,就是bed格式文件,记录染色体号以及起始终止坐标,正负链即可。如果是记录某些位点或者区域碱基的变异,就是vcf文件格式。
2021-09-29 17:31:32
3286
原创 NGS数据分析实践:03. 涉及的常用数据格式[4] - bed和Wiggle/Bigwig/bedgraph格式
把sam格式的文本文件压缩成二进制bam文件可以节省空间,如果对参考基因组上面的各个区段标记它们的性质,比如哪些区域是外显子、内含子、UTR等等,这就是gtf/gff格式。如果只是为了单纯描述某个基因组区域,就是bed格式文件,记录染色体号以及起始终止坐标,正负链即可。如果是记录某些位点或者区域碱基的变异,就是vcf文件格式。
2021-09-29 10:33:42
2727
原创 NGS数据分析实践:03. 涉及的常用数据格式[3] - gtf/gff格式
把sam格式的文本文件压缩成二进制bam文件可以节省空间,如果对参考基因组上面的各个区段标记它们的性质,比如哪些区域是外显子、内含子、UTR等等,这就是gtf/gff格式。
2021-09-28 07:00:00
1362
原创 NGS数据分析实践:03. 涉及的常用数据格式[2] - sam/bam格式
测序得到的是带有质量值的碱基序列(fastq格式),参考基因组是(fasta格式),用比对工具把fastq格式的序列比对到对应的fasta格式的参考基因序列,就可以产生sam格式的比对文件。把sam格式的文本文件压缩成二进制bam文件可以节省空间。
2021-09-27 16:54:27
1648
原创 NGS数据分析实践:03. 涉及的常用数据格式[1] - fasta和fastq格式
测序得到的是带有质量值的碱基序列(fastq格式),参考基因组是(fasta格式),用比对工具把fastq格式的序列比对到对应的fasta格式的参考基因序列,就可以产生sam格式的比对文件。
2021-09-27 16:42:29
2715
原创 【Linux 笔记】Linux 基本操作 - 05. 10个小练习
笔记接上篇【Linux 笔记】Linux 基本操作 - 04. 利用SRA数据实践文本处理。笔记大部分源于生信技能树的B站视频教程【生信技能树】生信人应该这样学linux(更新至第14集),如有需要,可去欣赏原汁原味的视频讲解。
2021-09-23 02:07:12
479
原创 NGS数据分析实践:01. Conda环境配置及软件安装
Conda是版本控制和生信工具安装的一大神器。Conda是在Windows,macOS和Linux上运行的开源软件管理系统和环境管理系统。Conda可以快速安装,运行和更新软件包及其依赖的环境与工具。Conda可以轻松地在本地计算机上的环境中创建,保存,加载和切换。它是为Python程序创建的,但可以适用于任何语言的软件。
2021-09-19 01:55:52
2362
原创 NGS数据分析实践:00. 变异识别的基本流程
变异识别过程可以分成3大块:1. 原始数据质控;2. 数据预处理;3. 变异识别。大致可以细分为6个部分:(1) 原始测序数据的质控;(2) read比对,排序和标记PCR重复序列;(3) Indel区域局部重比对;(4) 碱基质量值重校正;(5) 变异检测;(6) 变异结果质控和过滤。
2021-09-18 23:04:34
3163
1
原创 二代测序方法:DNA测序之靶向重测序
NGS技术正逐年成熟,这使得全基因组测序的成本越来越低,但是对全基因组进行测序后得到的极其庞大、繁杂的数据量的分析工作并没有随之一起变得更加简单。相反,测序技术的发展出现了两个极端的方向:一种是大而全的全基因组测序,一种是小而精的靶向重测序。
2021-09-18 03:38:47
10697
原创 EndNote技巧 | Endnote导出文献
Q1:EndNote怎么导出文献,发给老板?Q2:我用EndNote X9 版本,但是我老板用EndNote X8版本,我导给他的库打不开怎么办呢?
2021-09-09 19:31:54
54399
4
原创 【Linux 笔记】Linux 基本操作 - 04. 利用SRA数据实践文本处理
下载SRA数据库中SRP115453 (PRJNA398328) 研究的测序数据信息文件 SraRunTable.txt 和测序结果ID文件SRR_Acc_List.txt,利用FileZilla或者WinSCP将其上传到服务器,以此作为此次文本操作实践的测试数据。
2021-09-03 02:44:30
829
原创 【数据库】SRA数据库介绍及数据下载
NCBI - SRA(Sequence ReadArchive)数据库是NCBI用于存储二代测序的原始数据,包括 454,Illumina,SOLiD,IonTorrent等,这个数据库是可以免费无限制下载的。当然,也可以到EBI - ENA数据库直接下载fastq .gz文件。
2021-09-02 21:13:08
5996
2
原创 【Linux 笔记】Linux 基本操作 - 03. shell脚本编程
笔记接上篇【Linux 笔记】Linux 基本操作 - 02. shell脚本编程基础。笔记大部分源于生信技能树的B站视频教程【生信技能树】生信人应该这样学linux(更新至第14集),如有需要,可去观看原视频。
2021-08-06 14:29:34
397
原创 【交互作用】02. 加法交互 & 乘法交互 (R包 interactionR)
生物学交互作用的评价应该基于是否有相加交互作用, 而流行病学研究中常运用logistic和Cox等广义线性模型, 并纳入乘积项分析因素间交互作用,其是否有意义仅反映相乘交互作用, 并不能反映两因素间相加或生物学交互作用的有无。上篇介绍了交互作用的基本概念、三个相加交互作用评价指标(RERI、AP和S)和 epiR R包的应用等。本篇内容主要介绍实现交互作用的另一个好用的R包 interactionR。
2021-08-01 02:04:33
18295
10
原创 【交互作用】01. 加法交互 & 乘法交互(R包 epiR)
在不同B因素水平,A因素的效应有统计学差异;同理,在不同A因素水平,B因素的效应也有差异。交互作用就是看二者合在一起的效应,与二者单独效应之和(相加)/之乘(相乘),相等还是不相等。不相等,那就是有交互。Mediation是解释暴露因素how导致的结局,而interaction是说明who是高风险目标人群。
2021-07-22 04:00:34
43575
33
原创 【Linux 笔记】Linux 基本操作 - 02. shell编程基础
笔记接上篇【Linux 笔记】Linux 基本操作 - 01. 系统认知-文本处理-软件安装-环境变量。主要介绍shell编程中涉及的变量、参数、通配符、变量替换、循环、重定向等内容。
2021-06-28 12:58:28
395
原创 【Linux 笔记】Linux 基本操作 - 01. 系统认知-文本处理-软件安装-环境变量
由于平时的学习工作疏于整理,笔记本1T的磁盘再次被我塞满;因此,借机清理出一波古早的Linux学习笔记,进行分享。笔记大部分源于生信技能树的B站视频教程【生信技能树】生信人应该这样学linux(更新至第14集),如有需要,可去欣赏原汁原味的视频讲解。
2021-06-27 22:11:26
721
原创 Linux awk命令详解
awk是行处理器: 相比较屏幕处理的优点,在处理庞大文件时不会出现内存溢出或处理缓慢的问题,常用来格式化文本信息。awk处理过程: 依次对每一行进行处理,然后输出。
2021-06-22 01:13:33
3307
1
原创 【软件介绍】GWAS meta分析软件:METAL
Meta-analysis是对多个GWAS分析结果进行综合评价。METAL是GWAS meta分析最常用的工具之一,本文简单介绍METAL软件基本用法。
2021-06-16 22:39:07
13644
21
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人