DNA数据挖掘:从序列到进化的深度探索
一、DNA序列基础
1.1 DNA结构与组成
DNA是遗传的基础,它是一种由称为核苷酸的小分子组成的聚合物。这些核苷酸可以通过四种碱基来区分:腺嘌呤(A)、胞嘧啶(C)、鸟嘌呤(G)和胸腺嘧啶(T)。因此,一个DNA序列可以完全由由A、C、G和T这四个字母组成的序列来指定。
DNA通常以双链形式存在,两条链上的碱基彼此互补,即A与T通过氢键配对,G与C通过氢键配对。例如,一条单链DNA(按5’到3’方向书写):5’ - AACCGTACC - 3’,会与一条反向的互补链配对:
5' A A C C G T A C C 3'
| | | | | | | | |
3' T T G G C A T G G 5'
双链DNA在空间中形成螺旋结构,即著名的双螺旋结构。这种配对机制使得一条DNA链可以作为模板来产生反向互补链,从而解释了DNA如何进行复制。
1.2 DNA测序
生物体的DNA是通过一种称为测序的过程来确定的。DNA测序涉及确定组成DNA序列的四种核苷酸A、C、G和T的精确顺序。一种标准的测序方法是基于凝胶电泳来分离DNA片段,但这种方法劳动强度大且成本高,限制了其在大规模测序中的应用。如今,毛细管电泳正迅速成为大型测序中心的首选方法。
测序过程会生成一组对应于四种核苷酸碱基的信号强度轨迹。然后通过一个称为碱基识别(basecalling)的过程从这些轨迹中确定实际的核苷酸序列。一个广泛使用的非商业碱基识别软
超级会员免费看
订阅专栏 解锁全文
92

被折叠的 条评论
为什么被折叠?



