最近,碰到这样一个问题,愚蠢的方式是逐条遍历并且正则匹配,显然性能上是无法让人接受的。
我最开始的思路局限在并行计算,搞多个进程或线程大家把数据分一分,每个人去遍历一部分,这显然是一个很好的方案,但是并没有直接解决逐条遍历的问题。
后来,我多方查找,发现adblock本身会对规则做一个预处理,它主要做规则合并,将多个规则合并成一个正则表达式,这个思路确实能将百万级别的数据打个折,可能只有80w了,但是这个遍历显然还是让人接收不了。然后发现adblock搞了个短文本的映射,主要思路是从规则中抽取短文本然后多条规则可以映射到一个短文本上,这个有点像我们的hash表,一个短文本就是一个key,每个key对应一个桶,桶里面才是放的真正的规则链表。
感觉这个思路确实很好,至少是分级遍历了,只有匹配上第一级的短文本,才有资格去遍历该桶内的规则link。这里的难点可能也是这个短文本的抽取了。
各位大拿,想知道短文本是如何抽取的,简单点,另外,还有其它的方式吗?
把上面3个方法一起用上,确实百万级别也不是什么问题了。