基因组研究:长距离顺式调控区域映射与新进化模型探索
长距离顺式调控区域映射研究
在基因组研究中,长距离顺式调控区域与基因之间的关联映射是一个重要的课题。研究发现,大量的非编码元件(NCE) - 基因对,尤其是涉及真兽亚纲特异性 NCE 的基因对,由于进化证据不足而获得低置信度分数。所考虑基因组与人类的差异程度会影响新序列提供的信息量。例如,鱼类基因组经历了大量重排,这对研究有帮助,但只有 2%的人类 NCE 可以追溯到这些物种;胎盘哺乳动物基因组与人类共享大多数 NCE,但重排次数通常较少。通过增加不同差异程度的基因组数量(特别是有袋类、鸟类和爬行类),可以提高研究的分辨率。随着全基因组测序成本的降低,研究方法的准确性有望显著提高。
研究方法
- 数据选择和直系同源映射
- 从 UCSC 基因组浏览器的人类 28 路比对数据集获取人类非编码保守区域,排除与 EnsEMBL 外显子、mRNA 或重复掩码区域有重叠的区域,仅保留得分超过 400 且长度超过 100 bp 的区域用于进一步分析。
- 从 Ensembl(版本 54)人类基因预测数据集获取外显子(排除标记为假基因的预测)。
- 使用 liftover(带 blastz nets)将人类非编码保守区域和编码区域映射到 16 个目标基因组:小鼠、大鼠、豚鼠、狗、牛、负鼠、鸭嘴兽、鸡、斑胸草雀、蜥蜴、青蛙、斑马鱼、三刺鱼、四齿鲀、河豚和青鳉。
- 映射过程分为两步:首先将所有人类非编码保守区域和外显子映射到 16 个目标基因组;然后将每个映射区域映射回人类,仅保留映射回人类原始
超级会员免费看
订阅专栏 解锁全文
3941

被折叠的 条评论
为什么被折叠?



