《数学之美》第18章 闪光的不一定是金子--谈谈搜索引擎反作弊问题和搜索结果的权威性问题

本文探讨了搜索引擎面对作弊行为的挑战及对策,介绍了反作弊技术如何去除网页排名中的噪音,以及如何通过句法分析等手段计算搜索结果的权威性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

    任何搜多引擎给出的结果都不完美,多少会有点噪音。有些噪音是人为造成的,其中最主要的噪音是针对搜素引擎网页排名的作弊(SPAM);另一些噪音则是在用户在互联网上的活动产生。

1 搜索引擎的反作弊

    针对搜索引擎的作弊,就是采用不正当的手段提高自己网页的排名。

        早期最常见的作弊方法是重复关键词。

        有了网页排名之后,一个网页链接越多,排名就可能越靠前。

    搜素引擎作弊从本质上看就如同对(搜素)排序的信息加入噪音,因此反作弊的第一条是要增强排序算法的抗噪音能力。其次是像在信息处理中去噪音那样,还原原来真实的排名。

    噪音消除的过程是一个反卷机的过程。

    从广义上讲,只要噪音不是完全随机并且前后有相关性,就可以检测并且消除。

    反作弊的另一个工具是图论。

    强调:第一,Google的反作弊和恢复网页原有排名的过程完全是自动的(并没有个人的好恶)。第二,大部分搜索引擎优化器和帮助别人作弊的人,只针对占市场份额最大的搜索引擎算法来作弊,因为作弊也是有成本的。

    作弊的本质是在网页排名信号中加入噪音,因此反作弊的关键是去噪音。

2 搜索结果的权威性

    用户使用搜索引擎一般有两个目的。其一是导航,即通过搜索引擎找到想要访问的网站。其二是查找信息。

    首先,PageRank和其他关于网页质量的度量方式都很难衡量搜索结果的权威性。

    其次,互联网对同一个问题给出的答案常常互相矛盾。

    计算权威度的步骤:

        1. 对每一个网页正文中的每一句进行句法分析,然后找出涉及到主题的短语,以及对信息源的描述。这样我们就获得了所谓的“提及”信息。

        2. 利用互信息,找到主题短语和信息源的相关性。

        3. 需要对主题短语进行聚合。

        4. 对一个网站中的网页进行聚合。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值