高效非度量空间库的构建与相似性索引设计
在当今大数据时代,处理大规模非结构化数据库中的信息检索问题变得至关重要。本文将围绕高效非度量空间库的构建实验以及利用并行遗传编程设计相似性索引的方法展开介绍。
非度量空间库构建实验
-
实验环境与数据集
- 实验环境 :实验在配备 Intel Core i7 2600(3.40 GHz,8192 KB 的 L3 CPU 缓存)和 16 GB DDR3 RAM(传输速率 20GB/秒)的 Linux 服务器上进行。代码使用 GNU C++ 4.7 编译,优化标志为 -Ofast,并在单线程环境下使用 1000 个查询进行测试。相关库可从 GitHub 下载。
- 数据集 :
- Colors:来自 Metric Spaces Library 的 112 维数据集。
- Unif64:元素随机、独立且均匀生成的 64 维向量。
- RCV - 16 和 RCV - 128:16 维和 128 维的主题直方图。
- SIFT:归一化的 1111 维 SIFT 签名。
从前三个数据集中提取前 105 个向量,SIFT 数据集则使用全部 104 个向量。
-
实验系列