GFA图格式介绍之L的方向问题

GFA(Graphical Fragment Assembly)是生物信息学里一种用于描述基因组图的文件格式。通常包括三部分:片段(segment)信息S、连接(link)信息L,路径(path)信息P。其中L的方向问题困扰了笔者一段时间,现在将研究后的理解讲一讲。


片段(segment)S

一段DNA序列,可表示为一段字符串(如ATTCG)。
而且是有方向的,5'端为起点,3'端为终点

连接(link)L

基本格式:
L <from_id> <from_strand> <to_id> <to_strand> <cigar>
字段说明:
L:表示该行是一个边记录。
from_id:边的起始片段(即from)的 ID。
from_strand:起始片段的方向(+ 表示从5'开始的正向,- 表示从3'端开始的反向)。
to_id:边的终止片段(即to)的 ID。
to_strand:终止片段的方向(+ 表示从5'开始的正向,- 表示从3'端开始的反向)。
cigar:CIGAR 字符串,表示两端对齐的匹配关系。例如,100M 表示 100 个碱基完全匹配。

方向问题
边是从from指向to,而两个片段本身也有+、-,所以一共有 2 × 2 = 4 2\times2=4 2×2=4种情况:
假设from片段为S1:(5')AT(3'),to片段为S2:(5')CG(3')

  1. L S1 + S2 +:从S1的5'端开始,经过S1的3'端,指向S2的5'端,即(5')AT(3')-->(5')CG(3')
  2. L S1 + S2 -(5')AT(3')-->(3')GC(5')
  3. L S1 - S2 +(3')TA(5')-->(5')CG(3')
  4. L S1 - S2 -(3')TA(5')-->(3')GC(5')

路径(path)P

参考文档

1.GFA介绍文档
https://github.com/lh3/gfatools/blob/master/doc/rGFA.md
2.DNA 中的 3’ 端、 5’ 端是什么意思? - 光sir的回答 - 知乎
https://www.zhihu.com/question/21112790/answer/2115773915

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值