链接分析

最新推荐文章于 2024-05-24 15:38:00 发布

转载最新推荐文章于 2024-05-24 15:38:00 发布 · 438 阅读

·

0

·

文章标签：

#文档 #html #搜索引擎

搜索引擎与人工智能专栏收录该内容

217 篇文章

订阅专栏

本文探讨了HTML标记如何影响信息检索的过程。通过引入HTML标记，系统可以更好地理解文档结构，如使用<H1>标记的信息被认为比<H4>标记的信息更重要。此外，链接信息对于揭示网页间的关系及辅助判断网页内容至关重要。

大量的HTML标记既给网页的预处理造成了一些麻烦，也带来了一些新的机遇。从信息检索的角度讲，如果系统面对的仅仅是内容的文字，我们能依据的就是“共有词汇假设”（sharedbag of words），即内容所包含的关键词集合，最多加上词频（term frequency或tf、TF）和词在文档集合中出现的文档频率（document frequency或df、DF）之类的统计量。而TF和DF这样的频率信息能在一定程度上指示词语在一篇文档中的相对重要性或者和某些内容的相关性，这是有意义的。有了HTML标记后，情况还可能进一步改善，例如在同一篇文档中，<H1>和</H1>之间的信息很可能就比在<H4>和</H4>之间的信息更重要。特别地，HTML文档中所含的指向其他文档的链接信息是人们近几年来特别关注的对象，认为它们不仅给出了网页之间的关系，而且还对判断网页的内容有很重要的作用。例如“北大学报”这几个字在北京大学学报社会科学版的主页上是没有的，因此一个仅靠内容文字分析的搜索引擎就不可能返回该主页作为结果。

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。