“超链接”的把戏,搜索引擎公司是如何运转的

你很有可能已经知道了超链接是什么:超链接是网页上的一个短语,当你点击它时,你将被带到另一个网页。绝大多数网络浏览器用蓝色底线显示超链接,以便其能被轻易识别。

令人意外的是,超链接也是老想法。1945年——大约是开始研发电子计算机的同一时期——美国工程师范内瓦·布什(Vannevar Bush)  发表了一篇极具前瞻性的论文《诚若所思》(As We May Think)。在这篇涉猎广泛的论文中,布什描述了大量可能实现的新技术,包括一台被称作麦麦克斯(memex)  的机器。麦麦克斯可以存储文件并自动进行索引,但其功能远不止这些。麦麦克斯允许“关联索引……任何被选中的东西都能立即自动选择另一个东西”,换句话说,那是一种早期的超链接。

超链接自1945年起就已出现。它们是搜索引擎用来进行排名最重要的工具之一,而且是PageRank技术的基础。接下来,我们将开始以最大的热情探索PageRank技术。

理解PageRank的第一步是一个名为超链接把戏(The Hyperlink Trick) 的简单想法。用一个例子就能非常容易地解释这个把戏。假设你对学习如何制作炒蛋感兴趣,并且用网络搜索了这一主题。如今,任何一次真正搜索炒蛋的网络搜索都会出现数百万个“命中”,但为了方便起见,让我们想象只有两个网页出现:其中一个是“欧尼的炒蛋菜谱”,而另一个则是“伯特的炒蛋菜谱”。这两个网页都出现在下图中,与之一道的是拥有这些菜谱超链接的网页。

图片

上面显示了6个网页,每个框都代表1个网页。其中2个网页是炒蛋菜谱,其余4个网页都有这些菜谱的超链接。超链接把戏认为伯特的网页比欧尼的网页排名高,因为伯特有3个链入链接 (incoming  link),而欧尼的只有1个。

问题是,这两个“命中”哪个应该有更高的排名,是伯特还是欧尼?人们在阅读链接这两份菜谱的网页并做出评价时不会有太大的问题。看起来这两份菜谱都很合理,但人们对伯特菜谱的反响要更为热烈一些。因此,在没有给出其他信息的情况下,伯特的菜谱比欧尼的菜谱排名更高可能会更合理。

不幸的是,计算机并不擅长理解网页的真实意思,因此搜索引擎检查这四个链接“命中”的网页,并对每份菜谱获推荐的强烈程度进行评估也不太可能。另外,计算机在计算方面非常优秀。 一种简单方法就是只计算链接每份菜谱的网页数——在这个例子中,1个网页链接欧尼的菜谱,3个网页链接伯特的菜谱——并根据这些菜谱的链入链接数对菜谱排名。当然,这种方法远不如让人阅读所有页面并手动排名精确,但它无疑是一种有用的方法。如果你没有其他信息, 一个 网页的链入链接数可能成为该网页“有用性”或“权威性”的指标。 在这个例子中,伯特的菜谱得分为3,欧尼的菜谱得分为1,因此在搜索引擎向用户展示的结果中,伯特的网页排名比欧尼的高。

你可能已经发现了一些在排名上使用这种超链接把戏的问题。 一个很明显的问题就是,有时候链接被用来显示差网页,而非好网页。 比如,假设有个链接欧尼菜谱的网页上写着:“我试了下欧尼的菜谱, 很糟糕。”像这样批评而非推荐一个网页的链接,的确会导致超链接把戏将网页的排名拔高。不过,在现实中,超链接更多是用于推荐而非批评。因此,尽管有这个明显的缺陷,超链接把戏仍然很有用。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

律己杂谈

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值