新闻之主题相似计算

新闻转载非常多,搜索新闻时常常碰到,结果里有很多相似新闻出现在一个页面,影响用户查看。

我这里说个主题(也就是新闻题目)相似计算。

分析:新闻主题大多是经过少量修改,大致状况是,加转载,截取主题,换个类似主题。

解决:过滤一些无意义字符,以主题的单个字符为hashtable主键,比较后计算相同key的出现次数,以它为分子,较小的hashtable长度为分母,获得一个比值,将它和一个常量(反复测试后获得的相似率)比较,一旦大于就认为其相似。

实际过程根据自己需要做些小调整,以上计算有最短长度限制(小于该长度的主题不计算)。

很早以前写得,现在工作中使用的,效果还行。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值