如何提高大规模正则匹配的效能

最新推荐文章于 2022-11-24 10:31:43 发布

原创

最新推荐文章于 2022-11-24 10:31:43 发布 · 1.2k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#大数据 #编程语言 #python #人工智能 #java

本文介绍了如何使用Hyperscan库来提高大规模正则匹配的效率，尤其是在安全场景如FTP攻击检测和DPI中的应用。Hyperscan支持流式匹配、多模匹配和特定指令集加速，解决了传统正则处理的延迟和资源消耗问题。通过整合到Flink中，实现了分布式处理，提高了处理吞吐。文章还提到了使用Hyperscan的注意事项和未来展望。

奇技 · 指南

今天小编为大家分享一篇关于如何提高大规模正则匹配的效能的文章

背景

日常工作中会大量应用正则表达式，用正则表达式去定义规则，然后去匹配数据。这里先看两个安全场景下的正则应用需求

场景1，FTP账号被成功暴力破解后数据遭窃取

• 数据源：FTP服务器日志

• 关联逻辑：针对特定账号暴力破解，然后利用该特定账号登录成功，之后利用该特定账号下载大量文件

• 告警内容：FTP账号${user_name}被成功暴力破解后窃取数据

• 告警级别：高危

场景1中，正则表达式用于在日志中匹配多次账户登录的行为上。

场景2，Deep packet inspection (DPI) ，例如过滤网络威胁和违反安全策略的流量等

• 数据源：网络数据包

• 检测规则条件：数据命中规则集

场景2中，正则表达式用于时间序列上的多个数据包之间的安全检测。

其实，场景1中只列举了FTP被攻击的一种方式，FTP攻击还有很多其他手段，所以检测FTP被攻击的正则匹配场景的另一个特征就是整个规则集可能很大；场景2中，利用已知的入侵行为构建模式集合，通过检测网络数据包，发现是否存在不符合安全策略的行为或被攻击的迹象，这需要对数据包的载荷部分进行检测，要求匹配的速度非常快，否则将会影响用户体验。

另一方面，这里用到的正则与传统用法又不太一样，对正则的传统用法是，给定一个文本，用一个或少数几个正则规则，去匹配文本，找出文本中匹配的数据。而现在面对的问题，首先是规则的数量大，上千上万或者超过十万的规则集，如果仍然采用之前的做法，用|分割，或者外层用循环去匹配，那么处理的时间将很长，对资源的消耗也很大，基本不可接受；其次在匹配的时候，待匹配的数据不是一个完整的整体，比如说网络数据包，是一个一个接收的，这是一个流式的形式，传统的正则处理引擎不能很好的处理流式数据，需要缓存一批数据去匹配，这样匹配就不够及时，而且目前正则处理有个很大的问题，如果正则表达式写的不好，那么匹配会很慢。所以，需要一个解决方案来应对以下这些挑战：

• 规则数量多

• 匹配速度要快

• 支持流式数据

• 资源消耗不能太大

Hyperscan算子介绍

针对上述正则匹配中遇到的挑战，经过调研和对比测试市面上的主流正则匹配引擎，我们最终选择了Hypersca