GFA(Graphical Fragment Assembly)是生物信息学里一种用于描述基因组图的文件格式。通常包括三部分:片段(segment)信息S
、连接(link)信息L
,路径(path)信息P
。其中L
的方向问题困扰了笔者一段时间,现在将研究后的理解讲一讲。
片段(segment)S
一段DNA序列,可表示为一段字符串(如ATTCG
)。
而且是有方向的,5'
端为起点,3'
端为终点
连接(link)L
基本格式:
L <from_id> <from_strand> <to_id> <to_strand> <cigar>
字段说明:
L
:表示该行是一个边记录。
from_id
:边的起始片段(即from)的 ID。
from_strand
:起始片段的方向(+ 表示从5'
开始的正向,- 表示从3'
端开始的反向)。
to_id
:边的终止片段(即to)的 ID。
to_strand
:终止片段的方向(+ 表示从5'
开始的正向,- 表示从3'
端开始的反向)。
cigar
:CIGAR 字符串,表示两端对齐的匹配关系。例如,100M 表示 100 个碱基完全匹配。
方向问题
边是从from指向to,而两个片段本身也有+、-,所以一共有
2
×
2
=
4
2\times2=4
2×2=4种情况:
假设from片段为S1:(5')AT(3')
,to片段为S2:(5')CG(3')
,
L S1 + S2 +
:从S1的5'
端开始,经过S1的3'
端,指向S2的5'
端,即(5')AT(3')-->(5')CG(3')
L S1 + S2 -
:(5')AT(3')-->(3')GC(5')
L S1 - S2 +
:(3')TA(5')-->(5')CG(3')
L S1 - S2 -
:(3')TA(5')-->(3')GC(5')
路径(path)P
略
参考文档
1.GFA介绍文档
https://github.com/lh3/gfatools/blob/master/doc/rGFA.md
2.DNA 中的 3’ 端、 5’ 端是什么意思? - 光sir的回答 - 知乎
https://www.zhihu.com/question/21112790/answer/2115773915