
SNP
文章平均质量分 72
育种数据分析之放飞自我
个人公众号:育种数据分析之放飞自我
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
plink中的BGEN格式的数据如何用
现代遗传关联研究通常使用数万至数十万个体的数据,这些数据是全基因组数千万标记的基因分型或估算的。基于这些数据的文本表示的传统数据格式(如IMPUTE输出的GEN格式或变量调用格式)有时不太适合这些数据量。事实上,对于简单的程序,解析这些格式所花费的时间可以支配程序执行时间。本页介绍了二进制GEN文件格式(“BGEN”格式),旨在解决这些问题。BGEN是一种稳健的格式,其设计具有特定的混合特性,我们认为这对此类研究很有用。它的目标是用于大型、潜在的遗传数据集。主要功能包括:存储直接输入和输入数据的能力。原创 2022-12-08 19:50:44 · 3315 阅读 · 1 评论 -
主成分分析PCA并给出解释百分比
出图:包括PC1和PC2的散点图,以及PC1和PC2的解释百分比。原创 2022-11-09 19:50:49 · 8140 阅读 · 0 评论 -
vcftools 转为plink报错:Error: Could not open temporary file
想使用vcftools转为plink文件,这样plink的map文件有名称,可以一步到位。一般最简单的方法是:这里:但是今天报错了:问题解决本来上面的代码没有问题,修改一下系统的即可,比如修改为4000,然后再运行就不会出错了。然后在运行vcftools命令:搞定!...原创 2022-07-13 19:15:41 · 1282 阅读 · 0 评论 -
xlsx文件的SNP数据转为plink常见问题
之前写过两篇Excle数据转为plink的格式:这里介绍一下常见的问题以及解决方法。测序公司给的是xls或者xlsx格式的数据,数据的格式如下:这里,每一行是一个SNP,每一列是一个样本。代码的逻辑:第一,读取数据第二,整理为map数据第三,整理为ped数据第四,保存为plink的格式注意,这里的缺失定义为,后面需要通过sed命令,将其转为00字符。map数据:ped数据:如果没有报错,就转化成功了。这个一版是map和ped数据不匹配,可以通过R中的map和map查看一下什么情况:原创 2022-07-07 21:37:12 · 2676 阅读 · 3 评论 -
基因组选择中如何清洗基因组数据
1. 背景一个朋友之前问过这个问题,问题可以分为:基因组选择中如何将ATCG的数据转化为012的形式如何进行基因组数据的过滤筛选有没有示例代码可以演示今天我将用一份模拟的芯片下机数据,演示一下如何进行基因组数据的筛选。2. 数据筛选的几个标准1,去除缺失率大于10%的SNP位点这句话的意思是,比如有50K个SNP位点,有1000个体,如果某一个SNP位点在1000个体中,...原创 2019-04-17 17:32:04 · 2785 阅读 · 1 评论 -
文献阅读: 基因组选择技术在农业动物育种中的应用
1, 序言看到一篇论文, 介绍的特别好, 包罗万象, 读文章时好像看到作者指点江山, 摘抄学习如下, 引用部分是我的吐槽.2, 摘要基因组选择(genomic selection, GS)是畜禽经济性状遗传改良的重要方法。随着高密度SNP芯片和二代测序价格的下降,GS技术越来越多被应用于奶牛、猪、鸡等农业动物育种中。然而,降低全基因组SNP分型成本、提高基因组育种值(genomic esti...原创 2019-02-13 20:28:49 · 5248 阅读 · 0 评论 -
全基因组选择介绍及实践-2:构建H矩阵
1, 编者自语H矩阵作为一步法的入门技术, 是需要掌握的, 本文以一篇文献为例, 介绍如何从头构建H矩阵. 文章包括H矩阵推导过程和代码实现.2, H矩阵定义基因组选择中, GBLUP的一个挑战是, 在参考群构建时, 需要两步, 第一步根据系谱和表型数据, 计算出伪数据(pseudo-data)(比如, 根据系谱计算公牛的女儿产奶偏差作为表型值, 因为公牛没有产奶数据), 然后用基因组信息进...原创 2019-01-29 20:52:51 · 2796 阅读 · 0 评论 -
plink格式的ped和map文件及转化为012的方法
.map格式格式说明链接: http://zzz.bwh.harvard.edu/plink/data.shtml#mapmap格式的文件, 主要是图谱文件信息, 主要包括染色体名称, 所在的染色体和所在染色体的坐标.1, map文件没有行头2, map文件包括四列: 染色体, SNP名称, SNP位置, 碱基对坐标染色体编号为数字, 未知为0SNP名称为字符或数字, 如果不重...原创 2019-01-26 09:22:57 · 20313 阅读 · 8 评论 -
synbreed R包学习系列1
这是标题 只能说, csdn的写作环境太棒了, 特别是markdown中快捷键的使用, 写起来特别流畅, 我很喜欢这种感觉. 没事可干, 就用写博客的形式学习. 小鼠数据数据描述 * 2527个个体有表型 * 两个性状:体重和日增重 * 1940个个体有基因型, 12545个SNP位点处理思路1, 将测序的个体表型值提取出来2, 清洗SNP数据3, 计...原创 2018-07-31 21:08:19 · 1951 阅读 · 0 评论 -
怎么对一组SNP 数据进行统计(频率、哈温平衡检验)
怎么对一组SNP 数据进行统计(频率、哈温平衡检验)library(SNPassoc)Loading required package: haplo.statsLoading required package: survivalLoading required package: mvtnormLoading required package: paralleldata(SNPs)查看SNPs原创 2017-02-28 16:23:52 · 18743 阅读 · 2 评论 -
如何将原始SNP信息转化为0,1,2的矩阵形式
导入示例数据library(SNPassoc)data(SNPs)SNPs[1:8,1:8]idcascosexblood.preproteinsnp10001snp10002snp10003 1 1 Female 13.7 75640.52TT CC GG 2 1 Female 12.7原创 2017-03-08 12:11:47 · 11157 阅读 · 9 评论 -
如何利用SNP信息计算亲缘关系G矩阵
## 生成SNP文件信息# create marker data for 9 SNPs and 10 homozygous individualssnp9 <- matrix(c( "AA", "AA", "AA", "BB", "AA", "AA", "AA", "AA", NA, "AA", "AA", "BB", "BB", "AA",原创 2017-03-08 10:53:37 · 10098 阅读 · 9 评论