J-Tech Talk 活动预告｜近似最近邻搜索算法 HNSW 的改进与优化

最新推荐文章于 2024-06-09 09:35:41 发布

原创

最新推荐文章于 2024-06-09 09:35:41 发布 · 551 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#算法 #python #大数据 #java #人工智能

本次J-Tech Talk聚焦于HNSW算法在大规模向量搜索中的优化，探讨Annlite如何结合PQ算法降低内存占用和延迟。Jina AI社区成员分享了HNSW在Annlite中的应用及其改进，讨论了引入HNSW PQ backend的原因，并总结了社区开发经验。

J-Tech Talk

由 Jina AI 社区为大家带来的技术分享

工程师们将深入细节地讲解具体的问题

分享 Jina AI 在开发过程中所积累的经验

针对海量向量数据的搜索，无论是工业界还是学术界都做了大量的研究。由于精确的向量搜索在海量数据的场景下搜索时间过长，所以目前的常见做法，是在向量上建立近似搜索索引。学术上我们称之为近似最近邻搜索 ANN (Approximate Nearest Neighbor Search) 问题，通常都是通过牺牲搜索精度来换取时间和空间的方式，从大量样本中获取最近邻。

根据 Benchmark 上 ANN 算法的基准测试结果，基于图结构的 HNSW 算法在查询速度和精度上优于其他 ANN 算法。但是 HNSW 算法本身的主要问题就是对内存占用较大，限制了其可以索引的数据大小。

目前 Jina AI 的开源向量索引产品 AnnLite 的核心近似搜索算法是基于 HNSW 来实现，并在此基础上提供了更加丰富的功能（例如支持前置过滤近似查询）。为了使得 AnnLite 能够具备更强的竞争力和实际应用价值，我们对 HNSW 算法进行了改进和优化。

本期 J-Tech Talk 邀请到了负责本优化项目的叶坚白，来分享《近

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。