3、高维数据集中的灵活聚合相似性搜索

高维数据集中的灵活聚合相似性搜索

在当今的数据驱动时代,高效且有效的相似性搜索在众多领域中都发挥着至关重要的作用。无论是空间数据库、多媒体数据库、数据挖掘还是推荐系统,都对相似性搜索有着极高的需求。本文将深入探讨高维数据集中的灵活聚合相似性搜索(FANN)问题,并介绍相关的算法和技术。

1. 背景与问题提出

经典的相似性搜索旨在从数据库中检索出与指定查询对象最相似的一组对象,通常基于单一的排序标准,用相似性函数来表示。然而,近年来,多排序标准的应用逐渐受到关注,通过聚合函数(如 min、max、sum 或 avg)将各个排序结果组合起来,得到对象的最终排序。

聚合最近邻(AggNN)搜索是一种重要的相似性搜索方法,它的目标是从数据库 S 中检索出 k 个与查询对象组 Q 最相似的对象,相似性度量通常定义为检索对象与 Q 中每个查询对象之间距离的聚合(通常是 sum、avg 或 max)。由于其重要性和通用性,AggNN 在多个领域都得到了广泛研究,包括基于内容的图像检索、推荐系统、道路网络等。

但 AggNN 方法存在一定的局限性,它倾向于只选择与 Q 中所有查询对象都相似的对象,当 Q 中对象的特征差异较大时,其性能可能会受到严重限制。为了解决这个问题,Li 等人提出了灵活聚合相似性搜索(FANN)问题,通过仅计算 Q 的子集上的聚合距离,放宽了 AggNN 的限制。具体来说,FANN 旨在检索出 k 个与 Q 的一个大小为 φ|Q| 的子集最相似的对象,其中 0 < φ ≤ 1。当 φ = 1 时,FANN 等价于 AggNN。

与 AggNN 相比,FANN 不仅更适合找到具有语义意义的结果,还允许用户更灵活地制定查询对象组 Q

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值