深度学习与机器学习 对比相似向量

本文探讨了在深度学习和机器学习中如何对比和查找大量向量的相似度。针对不同规模的数据集,介绍了基于哈希的FALCONN和NMSLIB框架适用于中小规模数据,而大规模数据集则推荐使用矢量量化方法的Faiss。文中以FALCONN为例,提及其简单易用,并提供了测试代码作为参考。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

深度学习和机器学习经常涉及到对比向量相似度的问题,特别的查询新向量与库中哪个向量最近,对于少数量的而言,可以遍历 依次对比,数量太多,速度就成一个问题。一般有基于树的方法、哈希方法、矢量量化方法。

基于哈希的方法,对于小数据集和中型规模的数据集(几个million-几十个million),开源框架 FALCONN和 NMSLIB 是一个非常不错的选择,如果对于大型规模数据集(几百个million以上),基于矢量量化的 Faiss 是一个明智的选择

适合我这里主要使用 FALCONN,因为使用确实方便简单 ,其GitHub上对此算法有详细的介绍,这里先不涉及。

做一个简单测试,代码如下:

# -*- coding:utf-8 -*-
import falconn
import numpy as np

# 维度
params_hp = falconn.get_default_parameters(2, 2)
print params_hp

# params_hp = falconn.LSHConstructionParameters()
# params_hp.dimension = 512
# seed = 1
# params_hp.lsh_family = 'hyperplane'
# params_hp.distance_function = 'negative_inner_product'
# params_
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值