【好久没记录了~最近在准备复试的时候发现了远古时期自己做的大作业,虽然漏洞百出(那时候居然会把个体叫做1位个体),但maybe是我大学期间最用心的大作业了。谁让邵老师魅力无穷呢】
高通量测序实验课探索之——对韩国个体进行全基因组测序并探寻两种比对及分析方法之异同
一、介绍
遗传学是破译不同人群表型多样性的关键。近年来,基于microarray和第二代测序技术 ,Hapmap 和千人基因组计划取得了重大的成就。韩国人口是 HapMap 和千人基因组计划中未包括的亚洲人口, 目前还没有一个综合的韩国群体的遗传结构来解释韩国人群特有的遗传特征。本文旨在利用全基因组测序数据来描述韩国人群的遗传特征。
通过与 HapMap 和 千人基因组计划 检测到的遗传变异进行比较分析,我们确定了只存在于韩国人群中的 snv ,并探讨了它们与功能、通路 、疾病和药物方面的关系 。这些发现加深了我们对韩国人群遗传学和进化的理解,并有望促进韩国人群的 个性化医疗 。
二、数据来源
1、 CAMDA 获取数据( http://dokuwiki.bioinf.jku.at/doku.php/start )。数据包括全基因组测序原始读段,BWA比对结果,用 SAMTools 做的 SNV calling 结果。从中选取 3 5个韩国血统人群样本用作研究。
2、 由全基因组测序数据得到的 9 个韩国人的 SNVs hg19格式(http://tiara.gmi.ac.kr/download)
3、 hg19 参考序列(ftp://hgdownload.cse.ucsc.edu /goldenPath/hg19/bigZips/chrom
FaMasked.tar.gz)
三、方法
本文使用两种SNV calling的方法分析35位韩国人的全基因组测序的原始读段。
第一种用BWA(0.5.9)与人类基因组(hg19)进行读段比对,然后用SAMtools进行SNV calling;第二种用SOAP2(2.21)(bowtie2)与人类基因组(hg19)进行读段比对并且用SOAPsnp(GATK)做SNV calling。将用两种方法的得到的 SNV 根据基因位置合并在一起,然后进行比较。提取 那些 用两种方法均能检测到的被认为是高质量的韩国人群 SNV 。 接下来,比较韩国 SNV 和在 1KGP 、 HapMap 中 能 检测到的其他人群的 SNV并将韩国人群 SNV 分为两类:仅在韩国人群的 SNV Korean与韩国人群和其他人群共享的 SNV 。最后 根据注释,确定仅在韩国 人群 的 非同义 SNV ,然后鉴定涉及的基因以进行 GO和 KEGG 富集分析,并探讨它们与疾病和药物的关联 。
四、代码部分
由于全基因组数量过于庞大,于是只使用了第一位韩国人的全基因组进行本
次研究。即 KPGP_ 00001。
①数据下载
根据作者提供的网址,去 CAMDA 下载,发现已经失效了!于是又去 KPGP 千人基因组计划官网查询,发现全是韩文!接着又去http://opengenome.net/index.php/Main_Page ,发现自己被 forbbidden 了。最后非常绝望,只能去万能的百度上搜索,在简书中遇见了KPGP 基因组!!
#下载了KPGP_00001这位志愿者的全基因组,存于data文件夹中
nohup wget ftp://biodisk.org/Release/KPGP/KPGP_Data_2013_Release_Candidate/WGS/K
PGP 00001/KPGP 00001_L1_R1.fq.gz 1>/dev/null 2>&1
nohup wget ftp:/