- 博客(3)
- 收藏
- 关注
原创 细说索引--HNSW、LSH、PQ、混合索引、DiskANN
摘要:本文系统介绍了三种主流向量索引技术及其混合方案。PQ(乘积量化)通过维度分组和组内聚类实现高效压缩与距离计算,适合十亿级向量但训练开销大;LSH(局部敏感哈希)利用哈希碰撞原理实现快速检索,内存效率高但参数敏感;HNSW(图索引)结合多层结构实现快速搜索,查询速度快但内存消耗大。混合索引方案如IVFFlat、IVFPQ则通过分桶、量化优化,在精度、速度和内存间取得平衡。其中DiskANN采用Vamana单层图结构,更适合磁盘存储的大规模数据场景。需根据数据规模、维度及硬件条件选择适配方案。
2025-11-24 17:06:21
220
原创 向量索引-近似最近邻(ANN)算法
摘要:近似最近邻(ANN)算法通过牺牲部分精度大幅提升搜索效率,适用于海量高维数据的相似性搜索。主要方法包括:基于树的KD-Tree(低维数据)、BallTree(高维数据);局部敏感哈希(LSH)利用碰撞原理实现概率性近邻搜索;HNSW通过多层图结构模拟小世界网络;乘积量化(PQ)将高维向量分解压缩。应用场景涵盖推荐系统、图像检索等。评估指标包括召回率、查询时间和内存占用。选择建议:低维用KD-Tree,高维用HNSW/PQ,内存受限考虑LSH/PQ。(149字)
2025-10-14 17:21:07
1447
原创 数据向量化
数据向量化是将非结构化或结构化数据转换为数值向量的过程,便于机器学习模型处理。常见的应用场景包括文本、图像、视频、音频等数据的特征表示。
2025-10-12 14:34:28
745
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅