GCTA：全基因组复杂性状分析工具，1.5版本

原创

已于 2023-12-11 23:46:32 修改 · 3.1k 阅读

13 ·

CC 4.0 BY-SA版权

文章标签：

#笔记

于 2023-10-11 22:46:06 首次发布

该博客是个人流程笔记，介绍了PCA和GCTA分析。PCA通过计算特征向量和特征值降维，还说明了获取bed文件和plink计算PCA的方法。GCTA分析涉及基本概念、估计GRM、去除亲缘个体及估计SNP遗传力。此外，还分享了在Linux系统下通过conda下载GCTA的步骤。

这是我个人的流程笔记，大概类似这种，怕忘记，最好的解决办法就写笔记。

一.PCA

1.0PCA的基本理解

PCA通过计算特征向量和特征值来进行降维。它首先对数据进行标准化处理，然后计算协方差矩阵或相关系数矩阵。接下来，通过对协方差矩阵进行特征值分解或奇异值分解，找到数据中最主要的特征向量（主成分）

PCA（主成分分析）的理解与应用 - 知乎 (zhihu.com)

【机器学习】降维——PCA（非常详细） - 知乎 (zhihu.com)

我真的才懂什么是 PCA (主成分分析) - 知乎 (zhihu.com)

PCA方法校正群体结构，GWAS该用多少个主成分？ - 知乎 (zhihu.com)

这些文章大家都可以看看，最推荐的是群体进化-GWAS分析 - 简书 (jianshu.com)

这里转载一部分内容，

PCA

分析原理

PCA(Principal Component Analysis)，即主成分分析方法，是一种使用最广泛的数据降维算法。PCA的主要思想是将n维特征映射到k维上，这k维是全新的正交特征也被称为主成分，是在原有n维特征的基础上重新构造出来的k维特征。PCA的工作就是从原始的空间中顺序地找一组相互正交的坐标轴，新的坐标轴的选择与数据本身是密切相关的。其中，第一个新坐标轴选择是原始数据中方差最大的方向，第二个新坐标轴选取是与第一个坐标轴正交的平面中使得方差最大的，第三个轴是与第1,2个轴正交的平面中方差最大的。依次类推，可以得到n个这样的坐标轴。通过这种方式获得的新的坐标轴，我们发现，大部分方差都包含在前面k个坐标轴中，后面的坐标轴所含的方差几乎为0。于是，我们可以忽略余下的坐标轴，只保留前面k个含有绝大部分方差的坐标轴。事实上，这相当于只保留包含绝大部分方差的维度特征，而忽略包含方差几乎为0的特征维度，实现对数据特征的降维处理。

简洁点来讲现在有这样的数据，100个样品，2M标记，即是2000000X100的矩阵，那么就通过数学降维的方法简化到100X3甚至100X2乘（即PC1，PC2）

分析软件

GCTA

tassel

EIGENSTRAT

结果展示

PCA结果矩阵（特征向量）
GWAS_1  0.0295707   0.0174155   -0.0245656
GWAS_10 0.0212291   -0.0552983  -0.0280335
GWAS_100    -0.0645872  0.00456635  0.00588907
GWAS_101    -0.0779853  -0.0317529  0.0138288
GWAS_102    -0.0790227  -0.0295285  0.0147819
GWAS_105    -0.0845384  0.000685319 0.0108059
GWAS_108    -0.0779536  -0.00380985 0.0101755
GWAS_109    -0.0789908  -0.00534946 0.012742
GWAS_11 0.0152839   0.0185823   -0.0305629
GWAS_110    -0.080786   -0.00255263 0.0131448
    *   第一列样品名称，第二列PC1的值，第三列PC2的值，第四列PC3的值（也就是平时看到的结果图的横纵坐标来源）
*   PCA解释数据结果（特征值）
54.402
32.2402
25.6809
18.0063
13.7968
9.6096
9.46086
9.00158
8.16587
7.60115
    *   这个结果每一个值对应的维度的解释情况，行数与样品数量一致，第一行代表第一维，依次类推；每一行除以所有
<

最低0.47元/天解锁文章