GWAS - plink提取染色体位置范围内的SNP位点

最新推荐文章于 2025-10-19 02:28:53 发布

原创最新推荐文章于 2025-10-19 02:28:53 发布 · 8.9k 阅读

24 ·

CC 4.0 BY-SA版权

文章标签：

#大数据

生物信息学专栏收录该内容

8 篇文章

订阅专栏

本文介绍如何使用BIM、FAM等文件进行基因数据分析，包括使用vim查看文件、plink命令解析不同文件格式及下载特定染色体范围内SNP的方法。

一、首先学会打开文件

写给像我一样的小白，如果你手头有bim、fam等文件，怎么查看呢？
双击是不行的！！！！首先打开terminal，cd到文件所在的目录，然后使用vim命令：

cd /Users/Downloads/sge_genedata 
vi xxxxx.bim

其中，文件位路径只需要直接选中文件夹，并且拖到terminal中就可以了！！

二、plink命令与文件格式：–bfile 、 --file 和 --tfile

使用–bfile 、 --file 和 --tfile读取文件类型不一样：
–bfile 读取二进制文件，bed、bim和fam格式
–file 读取文本文件，ped和map格式
使用以上两个命令时，文件命名要一致，如test.bed、test.bim、test.fam
二进制文件比较小，处理速度比较快

三、下载一定染色体位置范围内的所有SNP

根据注释可以知道，这条命令包括两个文件夹

file data即你要下载的源数据，比如千人基因组计划的数据啦
myrange.txt即你要提供的染色体位置范围的数据，下面注释写的很清楚啦，要有四列，分别是CHR ，BP1，BP2和LABEL
把命令输进去就可以了，如果错误了会报错，plink的错误提示还是很清楚的

plink--bfile /Downloads/sge_genedata/sge_qc_clean 
--extract range /User/Downloads/sge_genedata/myrange.txt 
--make-bed --out rangsnp

*如果没有把plink设入全局变量，则需要在plink前面加入plink的路径

–bfile 表示我的文件是sge_qc_clean.bed 、sge_qc_clean.fam 和sge_qc_clean.bim。
–bfile expects a filename prefix; ‘.bed’, ‘.bim’, and ‘.fam’ are automatically appended.意思是bfile后面只需要加文件名就好了，后缀会自己生成
–extract range是我需要提取的范围，按照上述的文件格式自己整理的txt
–make-bed 是在它之前的操作之后，创建一个新的PLINK 1二进制文件集
–out rangsnp就是想输出的文件名字
一开始我还不知道最后输出得到的文件放在哪里了，大家搜索一下文件的位置就找到了（应该可以改变输出文件的路径，等我学会了再补充）
最后我生成的文件：

使用一中介绍的vi命令，便可以查看提取的snp信息啦！！！
其中.log文件也可以双击打开，可以看到结果显示4416744 variants loaded from .bim file，即源文件中有这么多位点。–extract range: 24339 variants remaining.使用这行命令提取出的snp有24339个。