自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 细说索引--HNSW、LSH、PQ、混合索引、DiskANN

摘要:本文系统介绍了三种主流向量索引技术及其混合方案。PQ(乘积量化)通过维度分组和组内聚类实现高效压缩与距离计算,适合十亿级向量但训练开销大;LSH(局部敏感哈希)利用哈希碰撞原理实现快速检索,内存效率高但参数敏感;HNSW(图索引)结合多层结构实现快速搜索,查询速度快但内存消耗大。混合索引方案如IVFFlat、IVFPQ则通过分桶、量化优化,在精度、速度和内存间取得平衡。其中DiskANN采用Vamana单层图结构,更适合磁盘存储的大规模数据场景。需根据数据规模、维度及硬件条件选择适配方案。

2025-11-24 17:06:21 220

原创 向量索引-近似最近邻(ANN)算法

摘要:近似最近邻(ANN)算法通过牺牲部分精度大幅提升搜索效率,适用于海量高维数据的相似性搜索。主要方法包括:基于树的KD-Tree(低维数据)、BallTree(高维数据);局部敏感哈希(LSH)利用碰撞原理实现概率性近邻搜索;HNSW通过多层图结构模拟小世界网络;乘积量化(PQ)将高维向量分解压缩。应用场景涵盖推荐系统、图像检索等。评估指标包括召回率、查询时间和内存占用。选择建议:低维用KD-Tree,高维用HNSW/PQ,内存受限考虑LSH/PQ。(149字)

2025-10-14 17:21:07 1447

原创 数据向量化

数据向量化是将非结构化或结构化数据转换为数值向量的过程,便于机器学习模型处理。常见的应用场景包括文本、图像、视频、音频等数据的特征表示。

2025-10-12 14:34:28 745

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除