merge all exonic regions for each gene

本文介绍了一种解决基因组学中合并特定基因所有转录本中overlap的exon位置信息的方法。通过使用awk、gtf2bed、bedtools等工具,实现了将每个基因对应的exon区域进行整合,为后续的基因表达分析提供了基础。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

merge all exonic regions for each gene

该问题源同biostars中的一个问题类似:Question: How To Merge Isoforms For A Gene
简言之,将每个基因对应的所有转录本中有overlap的exon位置信息进行合并,即merge all exonic regions for each gene。
根据此,我暂时记录我的解决方案,运行消耗时间较长,待有空再寻思更好的解决方案

awk '$3=="exon"' xxxx.gtf > ${name}.gtf

gtf2bed < ${name}.gtf > ${name}.bed

for id in $(sort -k1,1V -k2,2n -k4,4V ${name}.bed |cut -f4 |sort |uniq)
do
    awk '$4==geneid' geneid="$id" ${name}.bed |\
    bedtools merge -i - -c 4,4,6 -o distinct,count,distinct -s >> ${name}_geneSeqInfo.bed
done
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值