18、正则表达式与Sed编辑器：从基础到应用

最新推荐文章于 2025-12-22 21:14:24 发布

躺平摸鱼王

最新推荐文章于 2025-12-22 21:14:24 发布

阅读量7

点赞数

CC 4.0 BY-SA版权

分类专栏：数据时代的生物计算之旅文章标签：正则表达式 Sed编辑器 egrep

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/k8s6orchestrator/article/details/155658584

数据时代的生物计算之旅专栏收录该内容

38 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

正则表达式与Sed编辑器：从基础到应用

正则表达式基础与应用

正则表达式是一种强大的文本模式匹配工具，在许多领域都有广泛的应用，尤其是在生物信息学中，用于处理DNA和蛋白质序列等数据。

搜索模式与示例

我们可以使用 egrep 命令来查找DNA序列中的重复片段。例如，要在 sequence.dna 文件中查找DNA序列重复，可以使用以下命令：

$ egrep ’([ACTG][ACTG])\1\1’ sequence.dna

这个正则表达式匹配DNA核苷酸双联体的重复。在匹配结果中，如 GGGGGG 、 GTGTGT 和 ATATAT 等都是符合模式的重复序列。

另外，要匹配三联体的反向重复，如 TCAACT 、 GCGGCG 或 AAAAAA ，可以使用以下构造：

egrep ’([ACTG])([ACTG])([ACTG])\3\2\1’ filename

需要注意的是，不能使用 egrep ’([ACTG]){3}\3\2\1’ filename 来实现相同的目的，因为这样会出现“bad back reference”错误，原因是括号必须真实存在，不能用量词

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。