拼接方案与DNA:理论、应用与展望
1. 引言
形式语言理论在生物学建模中有着重要的应用。早期,Aristid Lindenmayer通过引入字符串的并行重写来模拟生物发育,拓宽了形式语言理论的应用范围。如今,我们希望通过开发模型来表示分子生物学中信息大分子的行为,进一步丰富形式语言理论。
我们引入了拼接系统这一概念,它能将特定的DNA重组行为直接表示为有限字母表上字符串对的操作。对于双链DNA,其天然字母表D由四个氢键结合的脱氧核苷酸对组成。此前的工作主要集中在线性DNA分子的拼接模型上,而本文将扩展这一形式体系,涵盖线性和环状DNA分子的重组行为建模。
同时,已有一些关于拼接系统的研究成果。K. Culik II和T. Harju证明了重要的正则性结果;K. Denninghoff和R. Gatterdam通过引入多重性概念丰富了拼接概念,并证明了每个递归可枚举语言都可由拼接系统生成。本文将进一步扩展拼接概念,使其在数学上更自然,并将拼接操作扩展到环状字符串。
2. 线性与环状字符串、对合和多重性
2.1 线性与环状字符串
设A为有限集,A 是A中所有有限长度符号串的集合,包括长度为零的空串(记为1)。环状字符串是将线性字符串的左右两端连接形成的符号环。例如,由a、b、c、d四个符号组成的环状字符串可表示为Aabcd,其中A表示环状。环状字符串线性化表示时,最左边符号的选择是任意的,如Aabcd、Abcda、Acdab和Adabc都表示同一个环状字符串。所有A中符号的环状字符串集合记为AA,从形式上讲,AA是A 中关于循环置换的等价类集合。