任何搜多引擎给出的结果都不完美,多少会有点噪音。有些噪音是人为造成的,其中最主要的噪音是针对搜素引擎网页排名的作弊(SPAM);另一些噪音则是在用户在互联网上的活动产生。
1 搜索引擎的反作弊
针对搜索引擎的作弊,就是采用不正当的手段提高自己网页的排名。
早期最常见的作弊方法是重复关键词。
有了网页排名之后,一个网页链接越多,排名就可能越靠前。
搜素引擎作弊从本质上看就如同对(搜素)排序的信息加入噪音,因此反作弊的第一条是要增强排序算法的抗噪音能力。其次是像在信息处理中去噪音那样,还原原来真实的排名。
噪音消除的过程是一个反卷机的过程。
从广义上讲,只要噪音不是完全随机并且前后有相关性,就可以检测并且消除。
反作弊的另一个工具是图论。
强调:第一,Google的反作弊和恢复网页原有排名的过程完全是自动的(并没有个人的好恶)。第二,大部分搜索引擎优化器和帮助别人作弊的人,只针对占市场份额最大的搜索引擎算法来作弊,因为作弊也是有成本的。
作弊的本质是在网页排名信号中加入噪音,因此反作弊的关键是去噪音。
2 搜索结果的权威性
用户使用搜索引擎一般有两个目的。其一是导航,即通过搜索引擎找到想要访问的网站。其二是查找信息。
首先,PageRank和其他关于网页质量的度量方式都很难衡量搜索结果的权威性。
其次,互联网对同一个问题给出的答案常常互相矛盾。
计算权威度的步骤:
1. 对每一个网页正文中的每一句进行句法分析,然后找出涉及到主题的短语,以及对信息源的描述。这样我们就获得了所谓的“提及”信息。
2. 利用互信息,找到主题短语和信息源的相关性。
3. 需要对主题短语进行聚合。
4. 对一个网站中的网页进行聚合。