中文锐推榜的优化

郑昀@玩聚RT 20090615

 

中文锐推榜(原理很简单,就是自动搜集中文世界微博客的锐推(转发)消息,语义计算消息之间的相似性,自动聚合一条消息被 Twitter和饭否用户转发的次数;转发次数高的消息将登上热榜)在6月9日加入饭否的合并统计之前,存在的老问题:

1、重复:发源自不同人的锐推,内容大致是一件事情或一个链接,但由于措辞不同(汉语博大精深),甚至只是在最前面加了几个字或者诡异的符号,然后只要转发次数足够多,就可以导致重复上榜;

    解决办法:针对此问题,我们已经建立了不少规则,尽可能地去除锐推消息中的标点符号英文字母、各种格式各种习惯的转发过程中用户增加的评论。自然语言处理上,则清理消息中无意义的停止词,如“的”“是”等等。但只能尽可能减少,并未彻底解决。

 

在 @NetPuter 的建议下,最近加入对饭否数据的统计。

之后常被投诉的问题:

1、还是重复问题

2、部分知名ID过于频繁上榜:尤其以饭否ID为主;

3、少量上榜消息不具有传播性:即消息并不像玩聚RT所致力挖掘的那么“有趣”;

4、饭否的消息上榜过多:饭否的站方规范转发行为,增加了转发按钮之后,降低了转发行为的成本。

    解决办法:针对2和3,玩聚RT增加了一个黑名单,专门收纳那些有很多热情粉丝的、消息却不具有传播性的ID。但考虑到无处不在的“马太效应”,名人ID的消息上榜多,是显而易见的社会常态,不应该被禁止或限制。只要符合“有趣”的特质,那么即使是名人的消息,通过转发次数足够多证明了它的可传播性,那么就应该被传播出去。毕竟,榜单追求的是“有趣”。当初TechMeme的创始人Gabe非常强调的一点就是:“我希望能让读者感到有趣,同时也为不知名作者提供展示自己的舞台”。如果榜单上全都是东东枪、连岳或艾未未的名人锐推,人们也会很快厌倦的,所以增加不知名微博客用户的上榜几率,才是我们要认真考虑的。热门榜单相当于给你五分钟登上舞台中央的机会,至于是否抓人,就要看你的自身魅力了。上了锐推榜,第一波可以让至少两、三千人看到,然后也许有近百人再转发,按此估算,上榜的辐射面可能有近万人。这能够给不知名作者带来不少订阅者。

                  针对4,把来自twitter的消息上榜的阈值,与饭否的分开。饭否的上榜阈值要高得多。

                  针对1,@terryxxy 建议,对每一条已达到上榜资格的锐推消息,在准备上榜之前,可以与48小时内的已上榜锐推进行相似性比较;如果此消息发现与之前的消息重复度大于85%,就不再上榜。但考虑到微博客用户对汉语运用的随意性,还是会存在一定判错几率的。

 

其他问题:

5、@easthero 认为饭否用户和Twitter用户的群体是完全不同的,Twitter上的更具有Geek气质。所以他认为需要把Twitter的锐推榜与饭否的彻底分开,不要混合在一起计算和传播。

当然,在@NetPuter 建议为饭否单独建一个锐推榜时,我也是这么认为;饭否用户质量不如Twitter质量高,所以它们的消息不能合并计算。

但,在做了一段时间的实验后,我发现也不是这么绝对。

具有传播特质的锐推,和人性有关,与Geek无关。Geek也是人。

饭否和twitter上的能上榜的锐推消息本质都是一样,无非几个命题:

    自由主义、科技、情色和爆炸性新闻。

你可以回到加入饭否之前(6月9日)的锐推榜,比如 http://rt.ju690.com/?v=new&d=7&p=page30 ,对,修改后面的p参数,翻到40、50页看看,看和现在合并统计的有何区别呢?不还都是那些东西吗?科技、自由、大事件、段子、情色。

以后再增加其他微博客服务时,只要调高或调低发源自它们的消息的上榜阈值,调整好黑名单,我认为可以合并统计。

 

 

郑昀@玩聚RT 20090615

***文件中包含3500常用汉字+数字+英文大小写**** 调用示例: 引入<script type="text/javascript"src="js/cufon-yui.js"></script> <script type="text/javascript"src="js/ZHSRXT.js"></script>文件 <script type="text/javascript"> Cufon.replace("h2"); Cufon.set("fontFamily","ZHSRXT-GBK"); Cufon.set("fontSize","32px"); Cufon.set("color","green"); </script> /////////////////////////////////////////// Cufon 是一个用来替代 sIFR 框架,作为一种基于 JavaScript 的网页字体引入方案, Cufon 的核心功能是通过一个名为“cufon-yui.js” 的 JavaScript 类库,提供给开发人员的。在web开发中,经常面对的一种“冲突”,即“字体(Font Family)冲突”。   通常的这一冲突总是爆发于 Web 页面的设计者(Designer)和开发者(Coder)之间。在很多场合下,Web 页面的设计者都会倾向于在他们的页面设计稿中,为文字附加使用一些“特殊”的字体和特效,以此来展示他们卓越的设计能力。比如设计一个公司的Logo,图片上的一些特殊字体是从ps字库中调出的,当然这些文字在图片上显示肯定是没有问题的,但是如果要在网页中用文本来显示这些效果,就是会让开发人员抓狂了,因为浏览器并不支持所有的字体,这种情况Cufon就会大显身手了。 Cufon 技术的实现策略其实就是以一定标准,在网页相关位置上“画”出了所需要显示的文字字符,并同时替换原先区域所需要显示的文字。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值