3、网络搜索与大规模图像检索中的相似度应用

网络搜索与大规模图像检索中的相似度应用

1 网络搜索中的相似度

网络搜索引擎在当今信息时代至关重要,截至 2013 年年中,活跃的网站超过 6.6 亿个。用户不仅期望搜索引擎能快速、免费地提供优质搜索结果,还对搜索效率和相关性有较高要求。搜索引擎主要由三部分组成:
- 爬虫:负责从网络收集数据。
- 索引器:将收集到的数据转换为可搜索的压缩表示(索引)。
- 查询处理器:利用索引返回与用户查询最相关的网页。

1.1 文本相似度的应用

  • 去重与垃圾邮件检测 :在爬虫阶段,文本相似度用于网页去重,例如查找镜像网站,同时也用于检测网页文本垃圾邮件。由于网络数据量巨大,通常会使用概率技术,如 shingles 算法来提高效率。
  • 网页排名 :文本相似度还用于网页排名,通过标准的信息检索度量,如基于词的向量模型中的余弦距离,并结合 BM25 等加权技术。
  • 其他应用 :文本相似度在网络的词法和语义聚类以及网页族谱研究中也有应用,即研究网页是如何从其他网页创建而来的。

1.2 链接相似度的应用

基于链接属性的相似度主要用于检测链接垃圾邮件,同时也是网页搜索排名和网页推荐的一部分。

1.3 查询相似度的应用

查询相似度对于生成查询建议和推荐非常有用,还可以用于提取查询之间的语义关系。由于查询空间较为稀疏,大多数查询相似度度量是间接的。

2 大规模图像集合中的在线浏览图像检

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值