- 博客(13)
- 收藏
- 关注
原创 【2022年终总结】将哈佛大学Reich数据包中的352例SGDP样本进行Admixture分析的结果
分析所用到的SGDP(Simons Genome Diversity Project)科研数据在经过软件eigenstrat转化、plink提取特定样本并将其从1233013对碱基位点筛选至314282对碱基位点。此外祖源分析结果由软件admixture linux 1.3.0分析得到,其K值(将整体划分的种群数目)在的范围,结果数据在绘制出的统计图中体现。
2022-12-30 21:36:04
837
原创 在Windows系统中使用DIY Dodecad 2.1分析常染色体祖源的方法
DIY Dodecad v2.1允许使用不完整的基因型文件,即不包括计算器中使用的所有预期SNP标记的基因型文件。这对那些在测试中拥有较老基因型文件的个体很有用,并允许该工具用于任何类型的基因型数据。更重要的是它可以得到所有染色体的混合比例,所有具有一定长度的染色体区域,或者特定的感兴趣区域。
2022-10-24 19:37:10
725
原创 浅谈如何在优麒麟22.04中使用Eigenstrat和Plink工具生成类23andMe格式原始数据
在使用此教程前,请先在Oracle VM VirtualBox或其他虚拟机中安装好优麒麟22.04版系统,或其对应源系统Ubuntu 22.04。
2022-08-21 17:53:31
692
原创 【教程】如何使用BCFtools提取全基因组数据到芯片模拟数据?
如果您使用的是Windows系统(至少Windows 10),操作这部分的内容建议下载解压Cygwin衍生的win10tools,并打开Cygwin.bat来在Windows模拟部分Linux系统环境。文末有win10tools的下载链接,如果失效,那么需从以下链接下翻找到Win10 Release Users来下载win10tools:WGS Extract Version 3 Beta | WGSExtract.github.iohttps://wgsextract.github.io/ 接着打开使用
2022-06-30 16:55:05
2335
原创 NCBI36(hg18)参考的HapMap、HGDP数据下载链接
以下数据由于默认参考坐标是过去的NCBI36(hg18),不是当前通用的GRCh37(hg19)或GRCh38(hg38)参考坐标,因此在一般情况下请谨慎下载使用。一、HapMap(NCBI)1. 官方未解封数据源,包括1115例样本:(1) ASWAfrican ancestry in Southwest USA(2) CEUUtah residents with Northern and Western European ancestry from the CEPH collec
2022-03-31 22:15:58
1571
原创 常用或特别的人类fasta参考基因组下载链接
Fasta格式是一种基于文本用于表示核酸序列或多肽序列的格式,一般情况下可在大型的国际基因组网站的ftp链接下载到,文件后缀名多为".fasta"、".fa"、".fna",有的为压缩格式。比NCBI36/hg18更早的版本因为过旧,所以不显示。一、NCBI36 / hg181. Ensembl release 54(别名:Homo_sapiens.NCBI36.54.dna.toplevel )该参考的染色体编号开头不含“chr”。https://ftp.ensembl.org/pub/r
2022-01-18 23:56:26
6139
1
原创 几种国内芯片测序格式和 Affymetrix 位点集格式的对比
前3篇文章都是对比和 Illumina 芯片有关的原始数据格式,这篇则直接比较和 Affymetrix 芯片有关的原始数据格式。目前国内常见的测序机构里,23魔方主要使用与 Affymetrix 有关的定制芯片,据说新版也用了 Illumina 定制芯片,但真实性未知。而其他测序公司比如微基因、各色等,基本都使用或者改用 Illumina 的芯片(微基因的1.0版用 Affymetrix 的定制芯片)。而国外常见的5家(23andMe、Ancestry、FTDNA、LivingDNA、MyHeritag
2021-09-17 02:26:51
563
原创 几种国内芯片测序格式和 Illumina HumanHap 位点集格式的对比
上一篇文章因为数据量比较大,所以我在此打算单独开篇展示统计的与 Illumina HumanHap 有关的芯片原始文件转化。国外的5家常见测序公司里只有 23andMe 的V1和V2使用的位点集和 HumanHap 550 有关的(其中V1版本未找到)。数据见如下的图中:1.国内格式转国外与 HumanHap 相关格式的转化率图(按基因位点位置转化)2.国内格式转国外与 HumanHap 相关格式的未检出位点数图3.上述格式跑一些祖源计算器的理想利用率图(这里的原始数据文件第4列都填满了纯
2021-09-16 20:54:16
259
原创 几种国内芯片测序格式和 Illumina Omni 位点集格式的对比
国外的一些测序公司曾经使用过与 Illumina Omni 有关的定制芯片,比如 23andMe(V3)、Ancestry(V1&V2)、FTDNA(V2,部分统计来源则对应V1)、MyHeritage(V1)等,它们至今仍拥有很高的性价比。对此,我也做了一些对比图,其中涉及了 Omni 家族的 OmniExpress、Omni1 Quad 和 Omni 中华8 ,未涉及 Omni 家族的 Omni2.5 和 Omni5,也未涉及各自对应的外显子组格式,感兴趣的用户可以到Illumina的官网自行下
2021-09-16 17:59:31
384
原创 几种国内芯片测序格式和 Illumina GSA 位点集格式的对比
近几年内,很多国外测序公司(比如23andMe、FTDNA等),他们将类似于 Illumina Omni Express 芯片或其他的位点集替换成了类似于 Illumina GSA 芯片的位点集,且它们一般体现为定制芯片数据。特此,我做了一些对比图,以方便查找哪些芯片格式更接近 GSA(Global Screening Array)的位点集。为了方便对比,我也加入了几种近似于GSA位点集的对照格式。(以下数据皆用DNA Kit Studio V2.8转化)1.国内格式转国外与 GSA 相关格式的
2021-09-15 14:35:32
593
原创 用R语言拟合Eurogenes G25祖源坐标的学习笔记
Eurogenes Global25(简称G25)是一种类似于PCA(主成分分析)的Score值的祖源分析算法,与用百分比数值表示各成分祖源结果的普通祖源计算器的不同。具体信息可从国外网站查询获知,此文仅整理用R拟合G25坐标的学习笔记。一、准备工作1. 从R语言的官网直接下载、安装R,这里不再赘述;2. 下载nMonte程序(从百度链接下载,或者在科学上网后从Eurogenes的博客链接下载,链接在文末),并放在需要运行的文件路径上;https://pan.baidu.com/s/1ro
2021-08-28 01:23:33
484
2
原创 【教程】在Radmixture运行无标杆成分名的任意祖源计算器的方法
本文介绍一个使用radmixture程序计算个人祖源方法,如果您做过芯片级基因检测并下载了原始数据(raw data)文件,这篇教程将会给你带来很大的帮助。一、准备工作1. 下载自己的基因原始数据。如果您做的是普通的芯片测序,这需要从对应测序机构的网站提供的下载路径与方法的查找;如果您做的是全基因组测序,则先提取BAM/CRAM文件的数据到TXT/CSV的芯片格式里,再进行后续操作即可。下载、安装R语言。建议从官网下载安装包:https://www.r-project.org/2. 下载
2021-08-03 14:24:12
855
Eurogenes Global25 nMonte的R语言源程序
2022-10-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人