教你5分钟学会做基因单倍型分析
关键词: 基因单倍型、单倍型网络图、地理分布、连锁不平衡、主效位点
(一)基础知识篇
(二)分析工具篇
(六)数据准备及软件实操篇
(七)单倍型分析常见问题
怎么做单倍型分析
一、什么是单倍型?
在单倍型分析前,首先需要明白什么是单倍型、什么是基因单倍型?
一般来讲,所谓的单倍型是指同一染色体上不同变异位点的各种线性组合形式。那么基因单倍型自然就是指同一基因上(启动子、外显子、内含子、终止子)的不同变异位点的显性组合形式。
说明:基因组或染色体水平的单倍型分析不在本文范畴之内,请您参考“https://www.jianshu.com/p/4de7762aa81e”。
二、为什么要做单倍型分析?单倍型分析有什么用?
不需要做单倍型分析的话,那你点进来干什么呢?
单倍型分析的作用:
1)了解某基因在自然群体中的变异情况及其分布
2)推测某基因的那些自然变异可能具有较强的效应
3)了解该基因在物种驯化/进化/育种改良等过程中的变化
4)辅助确定基因功能
5)研究需要(研究基础、论文)
6)… … …
三、单倍型分析需要什么数据?数据从哪里来?
那么,进行基因单倍型分析需要那些数据呢?
1)基因型数据(必须)
既然单倍型分析需要变异位点信息,自然就需要基因型数据。基因型数据可以有很多来源,首先,可以零成本从各大公开数据库下载(推荐);其次,可以用一代测序的方法获取基因型数据(适合于基因不太长、样本数量较少的情况);如果你们课题组经费非常充足,可以自行设计基因芯片、高通量测序等等。
数据格式:
- 一代测序数据:需要拼接成序列并保存成fasta格式
- 二代测序数据:VCF,Hapmap,plink(map&ped)
- 自定义格式:表格,每行为一个变异位点,每列为一个样品,前五列固定为Chr,POS,REF,Alt和INFO
推荐一篇文章:3k水稻SNP数据集的简单利用
2)基因注释信息(可选)
如果需要查看单倍型中的变异位点在基因上面的分布的话,则会需要用到基因注释信息。如果没有这方面需求,则可以忽略。一般来说,各个已测序的物种都有对应的注释信息,这个做基因功能研究的肯定知道从哪里搞到适合你们所研究的物种的注释信息的。比如已测序的作物可以从phytozome数据库中下载,或者物种对应的数据库下载玉米(maizeGDB)。当然,这种注释信息不一定百分百正确。如果非常不行的你研究的基因恰巧注释是错误的,那么就需要你自行创建一个BED格式的注释文件了。
数据格式
- GFF/GFF3:一般从数据库下载的注释文件属于这种格式,可以手动将对应基因的注释信息提取出来,也可以直接使用源文件
- BED6:一般自定义为BED6格式;第一列为染色体名称,第二列为起始位置,第三列为终止位置,第四列为片段名称(基因ID+空格+CDS/UTR),第五列留空,第六列为方向(+/-)
3)样本信息(表型数据、地理坐标、样本分类等等,可选)
在分析完单倍型之后需要评估优势单倍型(产量高、高耐逆等)、变异位点的效应分析,则需要用到表型数据。单倍型的地理分布需要用到地理坐标。如果提供样本分类数据的话,单倍型网络分析能提供更多的线索。
数据格式
- 文件中:每行为一个样本,每一列作为一种数据,
- R中: 数据框(data.frame),行名为样本名,列名为数据信息(type,subgroup,location,等)
四、单倍型需要什么工具?
什么,都2302年了,您还在用Excel分析单倍型呢??!
在这里向推荐大家使用geneHapR。这款软件完美地支持从fasta序列以及vcf、p.link、HapMap等格式的二代测序结果进行单倍型鉴定。
软件安装:由于这款软件是基于R语言开发的,所以需要首先安装R和RStudio两款软件(注意一定要先安装R再安装RStudio)。
最新版R下载链接:https://cloud.r-project.org/bin/windows/base/。
最新版RStudio下载链接:https://posit.co/download/rstudio-desktop/。
都安装完成后,打开RStudio,输入如下命令。
# 先安装一些依赖的BiocManager的包,否则后续安装geneHapR容易出错
install.packages("BiocManager")
BiocManager::install(c("Biostrings", "GenomicRanges", "muscle", "IRanges", "rtracklayer", "trackViewer"))
# 安装geneHapR
install.packages("geneHapR")
如果安装过程遇到错误了。请不要灰心,不要放弃,命运总是坎坷的,相信阳光总在风雨后!请先安装缺失的软件包,等完成后再尝试运行install.packages("geneHapR")
安装geneHapR。
如果看到程序包‘geneHapR’打开成功,MD5和检查也通过
,恭喜你可以使用geneHapR进行单倍型分析了!!!
五、工具装好了,该怎么操作呢?
4.0 测试数据准备
将下列4个文件下载下来并存放到工作目录中,后续分析会用到
基因型数据:Genotype_example
注释信息:Annotation_example
表型数据:Phenotype_example
其他相关数据:AccINFO_example
5.1 RStudio代码
如果有一定的R语言基础,推荐您使用这种方式。
1) 从数据导入到单倍型鉴定
# 首先把软件加载进来
library(geneHapR)
# 设置工作目录(windows的同学注意"\"和"/"的问题)
setwd("D:/Haplotype")
# 导入各种数据
gff <- import_gff("gff/OsGHD7.gff3") # 导入GFF格式的注释数据
gff <- import_bed("12859_2023_5318_MOESM3_ESM.bed6") # 导入BED格式的注释数据
pheno <- import_AccINFO("12859_2023_5318_MOESM4_ESM.tsv") # 导入表型数据
AccINFO <- import_AccINFO