RaBitQ项目在大规模数据集上的数值溢出问题分析

奚祺芳Laughter

于 2025-05-29 09:01:41 发布

阅读量337

点赞数 3

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/gitblog_07547/article/details/148297313

RaBitQ项目在大规模数据集上的数值溢出问题分析

RaBitQ [SIGMOD 2024] RaBitQ: Quantizing High-Dimensional Vectors with a Theoretical Error Bound for Approximate Nearest Neighbor Search 项目地址: https://gitcode.com/gh_mirrors/ra/RaBitQ

问题背景

RaBitQ是一个高效的向量检索系统，但在处理大规模数据集时出现了异常情况。当用户尝试在msmarco10m数据集（约1000万条记录）上运行时，系统出现了"double free or corruption"错误，并且检索结果完全失效（召回率为0）。相比之下，在较小的msmarco1m数据集上运行则完全正常。

问题根源分析

经过深入排查，发现问题出在ivf_rabitq.h文件中的数值溢出。具体表现为：

当处理大规模数据时，计算x * D（其中x是向量索引，D是向量维度）可能产生非常大的数值
在msmarco10m数据集上，参数设置为D=1024，B=1024时，x * D的计算结果可能达到10^10量级
系统使用了32位无符号整数(uint32_t)来存储这些计算结果，而2^32(约42亿)远小于10^10
这种数值溢出导致内存访问越界，最终引发"double free or corruption"错误

技术细节

在向量检索系统中，数据通常以连续内存块的形式存储。每个向量占用D个浮点数空间，因此第x个向量的起始位置计算为x * D * sizeof(float)。当数据集规模(N)很大时：

对于N=10,000,000，D=1024的情况
最大偏移量为10,000,000 * 1024 * 4(bytes) ≈ 40GB
32位整数最大只能表示4GB的偏移量(2^32 bytes)
这导致计算偏移量时发生溢出，指针指向错误的内存区域

解决方案

要解决这个问题，需要对代码进行以下修改：

将所有可能涉及大规模计算的整数类型从uint32_t改为uint64_t
特别注意以下计算场景：
- N * D（数据集大小×维度）
- id * D（向量ID×维度）
- 任何可能产生大数的索引计算
在内存分配和指针运算时进行范围检查
对于特别大的数据集，考虑分块处理策略

预防措施

在开发高性能计算系统时，特别是处理大规模数据的场景下，开发者应当：

预先评估各种计算可能达到的最大值
对于索引、偏移量等关键变量使用足够大的数据类型
实现运行时范围检查机制
在文档中明确系统的数据规模限制
对大规模数据处理场景进行专项测试

总结

这个案例展示了在开发高性能检索系统时，数据类型选择的重要性。即使是看似充足的32位整数，在处理现代大规模数据集时也可能成为瓶颈。开发者需要根据应用场景仔细评估各种计算的上限，选择合适的数据类型，并实现必要的保护机制，才能确保系统在不同规模下的稳定运行。

RaBitQ [SIGMOD 2024] RaBitQ: Quantizing High-Dimensional Vectors with a Theoretical Error Bound for Approximate Nearest Neighbor Search 项目地址: https://gitcode.com/gh_mirrors/ra/RaBitQ

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

奚祺芳Laughter 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。