phased 基因型或者unphased 基因型的理解

本文介绍了SNP(单核苷酸多态性)标记的概念及其在遗传学研究中的应用,特别是如何通过SNP标记来确定基因型是否已知相位(phased)或未知相位(unphased)。当两个SNP标记位于同一染色体上且均为杂合状态时,可能存在两种不同的组合方式,即AA和AG。如果能够确定这些标记在同一染色体上的具体排列,则称该基因型为phased;反之则为unphased。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

SNP芯片标记测到的是一对同源染色体上的两个碱基,比如,一个SNP标记在一个个体当中的的结果是AA,在另一个个体当中的结果是TT, 若两个SNP标记在同一条染色体上后,如果这个两个位点都是杂合的,一个是AT,另一个是AG,这个时候就有两种可能,要么AA是在同一个同源染色单体上(AA是一种单倍型,haplotype),要么AG(单倍型)是在同一个同源染色单体上,如果我们知道这个信息,那么这个基因型就是phased genotype, 如果我们不确定谁和谁在同一条同源染色单体上,那么这时测得的基因型就是unphased genotype. 

参考http://blog.sina.com.cn/s/blog_4d2fda500101hq8u.html

### SHAPEIT 工具用于单倍型推断的方法 SHAPEIT 是一款广泛应用于基因组学研究中的软件,主要用于从群体样本数据中进行单倍型推断和连锁不平衡分析。该工具基于隐马尔可夫模型 (HMM),能够有效地处理大规模 SNP 数据集并提供高质量的单倍型估计结果[^1]。 #### 安装与准备 为了使用 SHAPEIT 进行单倍型推断,首先需要下载安装包,并按照官方文档说明完成环境配置。通常情况下,建议在 Linux 或 macOS 平台上运行此程序。此外,在执行具体操作前还需准备好输入文件,这些文件应包含个体 ID、染色体位置以及对应的基因型信息等必要字段。 #### 基本命令结构 SHAPEIT 的核心功能通过一系列命令行参数来调用,下面是一个简单的例子展示了如何启动一次典型的单倍型推断过程: ```bash shapeit --input-bed input_prefix \ --output-max output_prefix \ --thread N \ --window K \ --states M ``` - `--input-bed` 后跟的是 PLINK 格式的二进制文件前缀名; - `--output-max` 则指定了输出文件的基础名称; - `--thread` 参数允许指定使用的线程数以加速计算; - `--window` 和 `--states` 分别控制着算法内部的一些重要超参数设置。 #### 实际案例演示 假设有一个名为 example.bed 的 PLINK 文件作为输入源,则完整的命令可以写作如下形式: ```bash shapeit --input-bed example \ --output-max phased_example \ --thread 4 \ --window 500kb \ --states 200 ``` 这条指令将会读取 example.* 文件(*.bed*, *.bim*, *fam*),利用多核处理器的优势加快运算速度,并最终生成经过相位解析后的 VCF 文件以及其他辅助材料。 #### 结果解读 完成后会得到多个输出文件,其中最重要的是 .haps 文件,它记录了每个标记处两个可能存在的单倍型组合情况;而 .sample 文件则保存有关样品身份及其所属族群的信息。通过对上述两者的联合分析可以帮助研究人员更好地理解目标区域内遗传变异模式及潜在的功能意义。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值