目录
开源之夏 2022 项目已发布,申请 Jina AI 项目的同学可以准备起来了~
开源之夏是由「开源软件供应链点亮计划」发起,并长期支持的一项暑期开源活动。旨在鼓励全球在校学生,积极参与开源软件的开发维护,促进优秀开源软件社区的蓬勃发展,培养和发掘更多优秀的开发者。
今年是开源之夏举办的第三届,共计吸引了 124 家社区提报超过 300+ 项目。Jina AI 作为业内领先的神经搜索 (Neural Search) 开源企业,在开源之夏 2022 中共计提报了 3 个项目任务。
同学们现已可以进行任务申请,获得 Jina AI 资深工程师的亲自指导,以及 Jina AI 实习机会。完成项目并贡献给社区后,还将获得开源之夏活动奖金和结项证书。
Jina AI 项目任务详情一览
项目一:近似最近邻搜索算法 HNSW 的改进与优化
涉及技术领域:AI, 近似最近邻, 向量检索
编程语言:C++, Python
项目难度:进阶
联系导师:felix.wang@jina.ai
项目支持报名语言:中文
项目成果仓库:
https://github.com/jina-ai/annlite
https://github.com/jina-ai/annlite
项目描述:
针对海量向量数据的搜索,无论是工业界还是学术界都做了大量的研究。由于精确的向量搜索在海量数据的场景下搜索时间过长,所以目前的常见做法,是在向量上建立近似搜索索引。学术上我们称之为近似最近邻搜索 ANN (Approximate Nearest Neighbor Search) 问题,通常都是通过牺牲搜索精度来换取时间和空间的方式,从大量样本中获取最近邻。
根据 Benchmark 上 ANN 算法的基准测试结果,基于图结构的 HNSW 算法在查询速度和精度上优于其他 ANN 算法。但是 HNSW 算法本身的主要问题就是对内存占用较大,限制了其可以索引的数据大小。
目前我们的开源向量索引产品 AnnLite 核心近似搜索算法是基于 HNSW 来实现,并在此基础上提供了更加丰富的功能(例如支持前置过滤近似查询)。为了使得 AnnLite 能够具备更强的竞争力和实际应用价值,我们希望能够进一步对 HNSW 算法进行改进和优化。

最低0.47元/天 解锁文章
1069

被折叠的 条评论
为什么被折叠?



