使用 Qdrant 和 FiftyOne 进行最近邻嵌入搜索

本文介绍了神经网络嵌入及其应用,指出对嵌入执行搜索存在挑战,Qdrant和FiftyOne可简化工作流程。以MNIST数据集为例,详细阐述了安装相关工具、加载数据集、生成嵌入、将嵌入加载到Qdrant、进行最近邻分类及在FiftyOne中评估结果的步骤。

神经网络嵌入是输入数据的低维表示,可用于各种应用。嵌入具有一些有趣的功能,因为它们可以捕获数据点的语义。这对于图像和视频等非结构化数据特别有用,因此您不仅可以编码像素相似性,还可以编码一些更复杂的关系。

对这些嵌入执行搜索会产生许多用例,例如分类、构建​​推荐系统,甚至是异常检测。对嵌入执行最近邻搜索以完成这些任务的主要好处之一是无需为每个新问题创建自定义网络;您通常可以使用预先训练的模型。
无需任何进一步的微调就可以使用由一些公开可用的模型生成的嵌入。

虽然有很多涉及嵌入的强大用例,但在对嵌入执行搜索的工作流程中存在一些挑战。具体来说,在大型数据集上执行最近邻搜索,然后有效地对搜索结果采取行动,例如,执行自动标记数据等工作流程,既是技术挑战,也是工具挑战。为此,Qdrant 和 FiftyOne 可以帮助简化这些工作流程

Qdrant是一个开源向量数据库,旨在对密集神经嵌入执行近似最近邻搜索 (ANN),这对于任何预期可扩展到大量数据的生产就绪系统都是必需的。

FiftyOne是一个开源数据集管理和模型评估工具,可让您有效地管理和可视化数据集、生成嵌入并改进模型结果。

在本文中,我们将 MNIST 数据集加载到 FiftyOne 中,并基于 ANN 进行分类。数据点将通过从我们的训练数据集中选择 K 个最近点中最常见的地面实况标签进行分类。换句话说,对于每个测试示例,我们将使用选定的距离函数选择其K个最近邻,然后通过投票选择最佳标签。向量空间中的所有搜索都将使用 Qdrant 完成以加快速度。然后,我们将在 FiftyOne 中评估此分类的结果。

安装

如果您想开始使用 Qdrant 的语义搜索,您需要运行它的一个实例,因为此工具以客户端-服务器方式工作。最简单的方法是使用官方的 Docker 镜像并使用一个命令启动 Qdrant:

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

wouderw

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值