adblock如何过滤百万级别规则

本文探讨了在处理大量规则匹配任务时的性能优化方法,包括规则预处理、规则合并及使用短文本映射技术来实现高效的分级遍历策略。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

       最近,碰到这样一个问题,愚蠢的方式是逐条遍历并且正则匹配,显然性能上是无法让人接受的。

       我最开始的思路局限在并行计算,搞多个进程或线程大家把数据分一分,每个人去遍历一部分,这显然是一个很好的方案,但是并没有直接解决逐条遍历的问题。

       后来,我多方查找,发现adblock本身会对规则做一个预处理,它主要做规则合并,将多个规则合并成一个正则表达式,这个思路确实能将百万级别的数据打个折,可能只有80w了,但是这个遍历显然还是让人接收不了。然后发现adblock搞了个短文本的映射,主要思路是从规则中抽取短文本然后多条规则可以映射到一个短文本上,这个有点像我们的hash表,一个短文本就是一个key,每个key对应一个桶,桶里面才是放的真正的规则链表。

       感觉这个思路确实很好,至少是分级遍历了,只有匹配上第一级的短文本,才有资格去遍历该桶内的规则link。这里的难点可能也是这个短文本的抽取了。

       各位大拿,想知道短文本是如何抽取的,简单点,另外,还有其它的方式吗?


       把上面3个方法一起用上,确实百万级别也不是什么问题了。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

陈浩_浩哥

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值