
科研笔记
文章平均质量分 56
xikafe
高维索引领域的一只蜗牛~
展开
-
高速外存体系下的高维索引标准.思路列表
现有的外存体系是DDR内存+磁盘二级存储结构。磁盘的优点是廉价,在存放大数据背景下的海量数据时扩充容量的代价容易承受。但是,数据管理的其他操作就有些蛋疼了,很多基本的操作都发现无法避免一个瓶颈:内外存间的通信(Jeffrey Scott Vitter)基于闪存的高速外存(SSD)没有随机I/O,这对很多ENN(Exact Nearest Neighbor)搜索方法是福音。典型的,va-file, f原创 2015-11-06 01:10:22 · 465 阅读 · 0 评论 -
怎么判断一个点是否有可能成为最远邻
目前,远邻图的构建还是在采用线序构建,比较耗时。有没有一种思路能够判断一个点是否是远邻。因为感觉,实际上数据集中不是所有点都可以成为最远邻,成为最远邻需要一些性质,或者无法成为最远邻需要一些性质,这些性质是什么?猜想数据集的中心点,所有点到数据集中心点的距离计算出来,排序,那么一个点 按照到中心点的距离将整个数据集划分成两部分,一个是比较距离大的,一个是比他距离小的,然后……建...原创 2018-04-20 13:50:51 · 254 阅读 · 0 评论 -
matlab与C接口备忘录
matlab中的数据类型浮点数 mxSINGLE_CLASS正整数 mxUINT32_CLASS原创 2018-05-10 09:24:09 · 216 阅读 · 0 评论 -
数据集
精确近邻查询LNL1方法: An Efficient Exact Nearest Neighbor Search by Compounded Embedding ↩原创 2018-05-10 20:19:30 · 289 阅读 · 0 评论 -
LSB-tree理论证明理解
一些基本公式和定义(1,c,p1,p2)(1,c,p1,p2)(1,c,p_1,p_2)敏感含义‖,‖≤r,Pr[]≥p1‖,‖≤r,Pr[]≥p1\|,\| \leq r, Pr[] \geq p_1, ‖,‖>cr,Pr[]≤p2‖,‖>cr,Pr[]≤p2\|,\| > cr, Pr[] \leq p_2基本LSH函数h(o)=⌊a⋅o+bw⌋h(o)=⌊a...原创 2018-05-05 10:49:23 · 326 阅读 · 0 评论 -
多维向量空间中点到线的距离公式
在做多维向量索引,需要用到多维空间中的一些通用距离公式,在此罗列,包括:点-线距离,。翻译 2017-03-09 17:07:59 · 11880 阅读 · 1 评论 -
C2LSH没有用多个hash table,是怎么解决False Negative的?
C2LSH里只有一组复合哈希函数,却也取得了精度上的概率保证,那么他有没有处理False Negative,怎么处理的?本帖对这一问题加以初步分析。原创 2017-03-24 13:55:48 · 1183 阅读 · 0 评论 -
FNN:利用均值和方差构造欧式距离下界
在做NN算法的时候遇到了一个有意思的论文。通过向量自身的均值和方差构建的高维点间的距离下界。实现了快速的线性NN搜索。文中发现的这一下界公式觉得很有意思,特来详细介绍一下。原创 2017-03-25 14:58:24 · 797 阅读 · 0 评论 -
ubuntu下yael库调用与编译示例
yael提供了非常全且方便的feature向量数据上的基本运算,包括nn, vector, heap, kmeans(hkm), gmm, sorting, vlad 等等。之前已在ubuntu系统(14.04)上安装好了yael库(v438),发现写c/c++代码调用及编译器来非常简单,特此给出一个示例。原创 2017-03-27 11:20:35 · 1258 阅读 · 1 评论 -
MultiCore
http://www.cs.otago.ac.nz/staffpriv/hzy/publications.phpMultiCore的工作,由新西兰Otago大学的Huang Zhiyi教授领导,链接。 先是在TOPD上发表1,然后在2016年PCAF发表在B类会议ICPP(internation confe on parallel processing)2,最近(2018)扩展到A类期刊Tr...原创 2018-02-27 10:36:22 · 779 阅读 · 0 评论