faiss相似三种索引

转载::https://www.cnblogs.com/yhzhou/p/10569311.html

知乎faiss应用:https://zhuanlan.zhihu.com/p/90768014

知乎:内积,欧氏距离:https://zhuanlan.zhihu.com/p/133210698

### 使用FAISS进行相似性搜索 #### 安装依赖库 为了使用 FAISS 进行相似性搜索,首先需要安装必要的 Python 库。可以通过 pip 来完成这些操作。 ```bash pip install faiss-cpu pip install numpy ``` #### 构建索引并加载数据集 创建一个简单的例子来展示如何构建使用 FAISS 索引来加速向量之间的距离计算过程[^1]。 ```python import faiss import numpy as np d = 64 # 向量维度 nb = 100 # 数据集中样本数量 nlist = 10 # 聚类中心的数量 np.random.seed(1234) # 设置随机种子以便于重现结果 xb = np.random.random((nb, d)).astype('float32') # 随机生成一些训练数据点 index = faiss.IndexFlatL2(d) # 创建 L2 距离度量的平面索引对象 print(index.is_trained) index.add(xb) # 将训练数据加入到索引中 print(index.ntotal) ``` #### 添加新向量至现有索引 可以继续往已经存在的索引里添加新的向量而不需要重新建立整个结构。 ```python xq = xb[:5] # 取前五个作为查询向量 k = 4 # 返回最近邻数目 D, I = index.search(xq, k) # 查询最接近的四个邻居及其对应的欧氏距离平方值 print(I) print(D) ``` #### 异步相似性搜索实现 对于大规模应用来说,可能希望采用异步方式来进行高效并发处理请求的任务。这里给出一段利用 `asyncio` Faiss 的组合实现异步搜索功能的小程序片段[^2]。 ```python import asyncio from typing import List class AsyncFaissSearcher: def __init__(self): self.index = None async def init_index(self, vectors: List[List[float]]): dimensionality = len(vectors[0]) self.index = faiss.IndexFlatL2(dimensionality) await asyncio.sleep(0) # 让出控制权给事件循环 self.index.add(np.array(vectors).astype('float32')) async def search_similarities(self, queries: List[List[float]], top_k=5)\ -> (List[List[int]], List[List[float]]): distances, indices = [], [] for q in queries: D, I = self.index.search(np.array([q]).astype('float32'), top_k) distances.append(D.tolist()[0]) indices.append(I.tolist()[0]) await asyncio.sleep(0) # 提供机会让其他协程运行 return indices, distances # 测试用法 searcher = AsyncFaissSearcher() await searcher.init_index([[i / 10.] * 64 for i in range(10)]) results = await searcher.search_similarities([[0.]*64], top_k=3) for idxs, dists in zip(*results): print(f"indices={idxs}, distances={dists}") ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值