正则表达式与 Sed 编辑器全面指南
1. 正则表达式搜索模式与示例
正则表达式在文本处理和模式匹配中具有强大的功能。下面通过具体示例来展示其在 DNA 序列重复查找中的应用。
1.1 查找 DNA 重复序列
使用 egrep 命令可以查找 DNA 序列文件中的重复序列。例如,在文件 sequence.dna 中查找 DNA 核苷酸双联体的重复序列,可使用如下命令:
$ egrep ’([ACTG][ACTG])\1\1’ sequence.dna
该命令会匹配文件中符合条件的序列,如:
GATAGCTATGTCGATGCTGATGCATGCATGCGGGGGGATTGAAAAAGG
CGTGTGTAGCGTAATATATGCTATAGCATTGGCATTA
其中, GGG GGG 、 GTGTGT 和 ATATAT 就是匹配到的重复序列。
若要匹配三联体的反向重复序列,如 TCAACT 、 GCGGCG 或 AAAAAA ,可使用以下命令:
egrep ’([ACTG])([ACTG])([ACTG])\3\2\1’ filename
超级会员免费看
订阅专栏 解锁全文
2

被折叠的 条评论
为什么被折叠?



