DiskANN:在单机上快速准确地进行十亿数据最近邻搜索(微软印度研究院)——NeurIPS 2019

DiskANN是一种近似最近邻搜索算法,可在单节点上实现对十亿级数据集的快速、准确检索,结合SSD存储和内存优化技术,提供低延迟、高召回率的搜索性能。

博客地址: https://mzwang.top/

论文题目

DiskANN: Fast Accurate Billion-point Nearest Neighbor Search on a Single Node

相关信息

作者与单位

Suhas Jayaram Subramanya(suhas@cmu.edu); Carnegie Mellon University;

Devvrit(devvrit.03@gmail.com); University of Texas at Austin;

Rohan Kadekodi(rak@cs.texas.edu); University of Texas at Austin;

Ravishankar Krishaswamy(rakri@microsoft.com); Microsoft Research India;

Harsha Vardhan Simhadri(harshasi@microsoft.com); Microsoft Research India;

出处与时间

33rd Conference on Neural Information Processing Systems (NeurIPS 2019), Vancouver, Canada. (人工智能A类会议); 2019

作者拟解决的主要问题

研究背景

近似最近邻算法主要是在索引时间,索引尺寸,搜索时间,召回率等方面进行权衡。基于树的方法一般是生成紧凑索引,这些索引在低维情况下能够快速搜索,但是当维度超过20时,会面临"维数灾难";基于哈希的方法能够在索引尺寸和搜索时间之间做一个更好的权衡,但它们一般没有利用数据点的分布;基于图的方法能在搜索时间和召回率方面做一个更好的权衡,相比其它索引方法,此类方法有更好的搜索性能。目前,很多应用都需要一个在亿级数据规模上快速精确的搜索算法。

现存解决方案

现存已有两种方案。

一是倒排搜索+数据压缩的方法,比如FAISS和IVFOADC+G+P。这类方法将数据集聚类为 M M M 个部分,仅将查询 q q q<

评论 14
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值