博客地址: https://mzwang.top/
论文题目
DiskANN: Fast Accurate Billion-point Nearest Neighbor Search on a Single Node
相关信息
作者与单位
Suhas Jayaram Subramanya(suhas@cmu.edu); Carnegie Mellon University;
Devvrit(devvrit.03@gmail.com); University of Texas at Austin;
Rohan Kadekodi(rak@cs.texas.edu); University of Texas at Austin;
Ravishankar Krishaswamy(rakri@microsoft.com); Microsoft Research India;
Harsha Vardhan Simhadri(harshasi@microsoft.com); Microsoft Research India;
出处与时间
33rd Conference on Neural Information Processing Systems (NeurIPS 2019), Vancouver, Canada. (人工智能A类会议); 2019
作者拟解决的主要问题
研究背景
近似最近邻算法主要是在索引时间,索引尺寸,搜索时间,召回率等方面进行权衡。基于树的方法一般是生成紧凑索引,这些索引在低维情况下能够快速搜索,但是当维度超过20时,会面临"维数灾难";基于哈希的方法能够在索引尺寸和搜索时间之间做一个更好的权衡,但它们一般没有利用数据点的分布;基于图的方法能在搜索时间和召回率方面做一个更好的权衡,相比其它索引方法,此类方法有更好的搜索性能。目前,很多应用都需要一个在亿级数据规模上快速精确的搜索算法。
现存解决方案
现存已有两种方案。
一是倒排搜索+数据压缩的方法,比如FAISS和IVFOADC+G+P。这类方法将数据集聚类为 M M M 个部分,仅将查询 q q q<

DiskANN是一种近似最近邻搜索算法,可在单节点上实现对十亿级数据集的快速、准确检索,结合SSD存储和内存优化技术,提供低延迟、高召回率的搜索性能。
最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



