正则表达式与Sed编辑器:从基础到应用
正则表达式基础与应用
正则表达式是一种强大的文本模式匹配工具,在许多领域都有广泛的应用,尤其是在生物信息学中,用于处理DNA和蛋白质序列等数据。
搜索模式与示例
我们可以使用 egrep 命令来查找DNA序列中的重复片段。例如,要在 sequence.dna 文件中查找DNA序列重复,可以使用以下命令:
$ egrep ’([ACTG][ACTG])\1\1’ sequence.dna
这个正则表达式匹配DNA核苷酸双联体的重复。在匹配结果中,如 GGGGGG 、 GTGTGT 和 ATATAT 等都是符合模式的重复序列。
另外,要匹配三联体的反向重复,如 TCAACT 、 GCGGCG 或 AAAAAA ,可以使用以下构造:
egrep ’([ACTG])([ACTG])([ACTG])\3\2\1’ filename
需要注意的是,不能使用 egrep ’([ACTG]){3}\3\2\1’ filename 来实现相同的目的,因为这样会出现“bad back reference”错误,原因是括号必须真实存在,不能用量词
超级会员免费看
订阅专栏 解锁全文
2319

被折叠的 条评论
为什么被折叠?



