对比其他算法
『百度的去重算法』
百度的去重算法最简单,就是直接找出此文章的最长的n句话,做一遍hash签名。n一般取3。 工程实现巨简单,据说准确率和召回率都能到达80%以上。
『shingle算法』
shingle原理略复杂,不细说。 shingle算法我认为过于学院派,对于工程实现不够友好,速度太慢,基本上无法处理海量数据。
『其他算法』
具体看微博上的讨论
文章对比了不同去重算法。百度去重算法简单,找出文章最长的3句话做hash签名,准确率和召回率超80%。shingle算法原理复杂,对工程实现不友好,速度慢,难以处理海量数据,其他算法可看微博讨论。
对比其他算法
『百度的去重算法』
百度的去重算法最简单,就是直接找出此文章的最长的n句话,做一遍hash签名。n一般取3。 工程实现巨简单,据说准确率和召回率都能到达80%以上。
『shingle算法』
shingle原理略复杂,不细说。 shingle算法我认为过于学院派,对于工程实现不够友好,速度太慢,基本上无法处理海量数据。
『其他算法』
具体看微博上的讨论

被折叠的 条评论
为什么被折叠?