检索--混合检索

原创已于 2025-03-18 15:40:53 修改 · 391 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

于 2025-03-18 15:39:59 首次发布

RAG 专栏收录该内容

6 篇文章

订阅专栏

专题4：混合检索

检索代码如下所示：

from pymilvus import AnnSearchRequest
#### STEP1：构造检索模块request_1 和request_2 
## 假设稠密数据
query_dense_vector = [0.3580376395471989, -0.6023495712049978, 0.18414012509913835, -0.26286205330961354, 0.9029438446296592]
search_param_1 = {
    "data": [query_dense_vector],
    "anns_field": "dense",
    "param": {
        "metric_type": "IP",
        "params": {"nprobe": 10}
    },
    "limit": 2
}
request_1 = AnnSearchRequest(**search_param_1)
## 假设稀疏数据
query_sparse_vector = {3573: 0.34701499565746674}, {5263: 0.2639375518635271}
search_param_2 = {
    "data": [query_sparse_vector],
    "anns_field": "sparse",
    "param": {
        "metric_type": "IP",
        "params": {}
    },
    "limit": 2
}
request_2 = AnnSearchRequest(**search_param_2)
reqs = [request_1, request_2]
#### STEP2：利用检索模块融合进混合检索
from pymilvus import MilvusClient
res = client.hybrid_search(
    collection_name="hybrid_search_collection",
    reqs=reqs,
    ranker=ranker,
    limit=2
)
for hits in res:
    print("TopK results:")
    for hit in hits:
        print(hit)

Rerankers策略主要有两种方法如下：

方法1：rrf加权策略

文档d在所有检索器的排名倒数和

from pymilvus import RRFRanker
ranker = RRFRanker(100)

方法2：对不同的检索空间的document先取交集，然后对score进行加权策略，策略如下：

图片来自于最佳实践论文

from pymilvus import WeightedRanker
rerank= WeightedRanker(0.8, 0.3)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

sccum

关注关注

8
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

精选资源

Gaussian Mixture Model (GMM) - Gaussian Mixture Regression (GMR)：高斯混合模型中的数据编码和通过高斯混合回归检索-matlab开发

05-30

GMM-GMR是一组Matlab函数，用于训练高斯混合模型（GMM）并通过高斯混合回归（GMR）检索广义数据。它允许通过使用期望最大化 (EM) 迭代学习算法对高斯混合模型 (GMM) 中的任何数据集进行有效编码。通过使用此模型，...

信息检索基于TF-IDF与PageRank混合模型的搜索算法优化：毕业设计中高级应用场景与代码实现

最新发布

11-19

文章通过实现一个结合TF-IDF与PageRank的混合搜索系统，展示了如何融合内容相关性与链接结构分析来提升搜索质量。代码实现部分详细解析了TF-IDF向量化、PageRank迭代计算及混合评分机制，并提出了稀疏矩阵优化、并行...

参与评论您还未登录，请先登录后发表或查看评论

rag增强检索-基于关键词检索的混合检索模式

JustinMars的博客

04-27

399

Milvus 2.4 开始原生支持 Hybrid 查询，可以直接用关键词 + 向量同时搜！Qdrant 支持 “filter + vector” 的查询，很丝滑。→ 先关键词召回，再向量检索排序，或者两者结合。

Milvus如何实现关键词过滤和向量检索的混合检索

JustinMars的博客

04-27

719

Milvus 支持混合检索，即同时进行向量检索和基于关键词或其他属性的过滤。通过在查询时使用 `expr` 参数，你可以轻松地将关键词过滤与向量相似度检索结合起来，以实现更精确和高效的数据检索。

使用 Milvus Hybrid Search Retriever 实现混合向量检索

qahaj的博客

03-12

1159

Milvus 是一个开源的向量数据库，专为嵌入相似度搜索和AI应用而构建。它通过提供统一的用户体验，简化了对非结构化数据的搜索，不论部署环境如何。Milvus 的混合搜索功能将稠密和稀疏向量搜索的优势结合在一起，为复杂搜索任务提供了更好的解决方案。

Milvus混合搜索

Made In SQL

05-07

1171

需要在 Collections Schema 中定义多个向量字段。目前，每个 Collection 默认最多可包含 4 个向量字段。但也可以根据需要修改的值，在集合中最多包含 10 个向量字段。下面的示例定义了一个 Collection Schema，其中dense和sparseid:该字段是存储文本 ID 的主键。该字段的数据类型为 INT64。text:该字段用于存储文本内容。该字段的数据类型为 VARCHAR，最大长度为 1000 个字符。dense:该字段用于存储文本的密集向量。

Milvus混合搜索检索器:结合稠密向量和稀疏向量的强大检索能力

bhawfgrcbtwny的博客

09-06

1667

Milvus混合搜索检索器是Milvus向量数据库提供的一个高级功能,它允许在单个查询中同时使用稠密向量和稀疏向量进行搜索。稠密向量:捕获文本的整体语义信息稀疏向量:保留关键词的重要性和频率信息通过混合这两种向量表示,检索器可以在语义相关性和关键词匹配之间取得平衡,从而提高检索的准确性和全面性。Milvus混合搜索检索器为开发者提供了一种强大的工具,可以在单一查询中结合稠密向量和稀疏向量的优势。这种方法不仅提高了检索的准确性,还增加了系统的灵活性。Milvus官方文档。

探索Milvus混合搜索：高效的密集与稀疏检索组合

aehrutktrjk的博客

10-08

866

Milvus的混合搜索检索器能够同时利用密集向量（dense vectors）和稀疏向量（sparse vectors）来进行数据检索。密集向量通常由神经网络模型生成，能够捕获文本的语义相似性，而稀疏向量则可通过传统的文本检索算法（如BM25）生成，更适合词频统计和关键词匹配。Milvus的混合搜索功能提供了强大的工具来处理各种复杂的检索需求。通过本文的示例，您可以初步了解如何实现和使用该功能。Milvus文档Langchain-Milvus GitHub仓库。

使用 Milvus 实现高效的混合搜索：从入门到实践

qq_29929123的博客

10-18

1250

Milvus 混合搜索利用稠密嵌入和稀疏向量的力量，提供更全面的搜索结果。通过结合不同的搜索策略，混合搜索能有效处理各种复杂的查询需求。如果你希望深入了解 Milvus 的功能，建议访问其官方文档。同时，也可以查看Langchain 文档以了解如何更好地集成 Milvus。

RAG 查询检索模块 - 检索 - Pinecone 混合检索方案

温染的笔记

06-07

1439

LlamaIndex实现RAG增强:融合检索(Fusion Retrieval)与混合检索（Hybrid Search）

AI人工智能的学习之路

04-03

2123

本代码实现了一个混合检索系统，将基于向量的相似性搜索与基于关键词的BM25检索相结合。该方法旨在综合两种技术的优势，提升文档检索的整体质量和相关性。

基于 Milvus 实现向量与结构化数据混合查询

ZILLIZ

08-29

3556

一、概述通过深度学习的神经网络模型，可以将图片、视频、语音、还有文本等非结构化数据转换为特征向量。除了结构化的向量，这些数据往往也需添加其他属性。如人脸图片，可以添加性别、是否戴眼镜、图片抓取时间等标签；文本可以添加语言类型、语料分类、文本创建时间等标签。以往，人们通常将特征向量存入结构化的标签属性表。但传统数据库无法针对海量、高维特征向量进行有效的搜索。这时就需要一个特征向量数据库，用来高效...

Milvus 实战 | 基于分区表实现结构化数据与非结构化数据的混合查询

ZILLIZ

02-07

2049

通过深度学习的神经网络模型，可以将图片、视频、语音、还有文本等非结构化数据转换为特征向量。除了结构化的向量，这些数据往往也需添加其他属性。如人脸图片，可以添加性别、是否戴眼镜、图片抓取时...

提升语义搜索效率：LangChain 与 Milvus 的混合搜索实战

举世誉之而不加劝，举世非之而不加沮，定乎内外之分，辩乎荣辱之境，斯已矣。

06-16

1662

LangChain与Milvus的结合构建了一套高效的语义搜索系统。LangChain负责处理多模态数据（如文本、PDF等）的嵌入生成与任务编排，Milvus作为向量数据库提供大规模向量相似性检索能力。二者协同实现从非结构化数据到结构化检索的完整流程。在本文我们将从最常见的密集+稀疏情况开始，然后介绍各种通用的混合搜索使用方法。

milvus: 专为向量查询与检索设计的向量数据库

penriver的博客

07-26

5004

Milvus的目标是：store, index, and manage massive embedding vectors generated by deep neural networks and other machine learning (ML) models. Milvus 向量数据库专为向量查询与检索设计，能够为万亿级向量数据建立索引。与现有的关系数据库主要按照预定义的模式处理结构化数据不同，Milvus采用自底向上设计，以处理从非结构化数据转换而来的Embedding向量。

为AI而生的数据库：Milvus详解及实战

08-18

3万+

概述Milvus 是一款云原生向量数据库，它具备高可用、高性能、易拓展的特点，用于海量向量数据的实时召回。MilvusMilvus 基于FAISS、Annoy、HNSW 等向量搜索库构建，核心是解决稠密向量相似度检索的问题。在向量检索库的基础上，Milvus 支持数据分区分片、数据持久化、增量数据摄取、标量向量混合查询、time travel 等功能，同时大幅优化了向量检索的性能，可满足任何向量检索场景的应用需求。

Milvus - 混合搜索和重排策略详解

花千树的专栏

11-01

2679

重排（Reranking）是混合搜索中的一个关键步骤，它用于整合多个向量场的结果，以确保最终输出具有相关性和优先级。- 基于权重分配，通过计算加权平均值来合并不同向量场的搜索结果。RRFRanker- 基于互易等级融合 (Reciprocal Rank Fusion, RRF)，通过倒数计算排名融合，以平衡每个向量字段的影响。以下内容将详细介绍这两种策略的原理、使用场景及代码示例。Milvus 提供的重排策略在多模态数据搜索中发挥了重要作用。

探索 Milvus 混合搜索检索器：实现高效向量搜索

tt_jishu的博客

11-19

721

Milvus 的混合搜索功能结合了密集向量（通过神经网络生成）和稀疏向量（通过词频-逆文档频率等算法生成）的搜索能力。这种方法不仅提高了搜索的精准度，还提升了检索的性能。Milvus 的混合搜索检索器为开发者提供了一种灵活且强大的工具来处理大规模的非结构化数据搜索。通过结合密集和稀疏向量，Milvus 能够在多种应用场景下提供出色的搜索性能。

知识库检索匹配的服务化实践

wangqiaowq的博客

02-23

1750

文本转向量的算法模型由embedding、两层transformer和MLP组成，模型最后会对编码向量做L2归一化，采用典型的双塔模式，可以将左塔的检索词和右塔的文档标题形成独立的子网络，左右塔的结构分离但编码器参数共享，双塔结构天然的可以用于召回，将这个模型部署到小盒子就可以在线计算检索词的向量，将海量的知识库文档作为右塔离线训练成文本向量后刷入向量检索工具Milvus。经过召回和粗排后，可以理解为将重要相关的文档排在了前面，但是距离用户真正的检索意图还有差距，可以使用用户的检索记录对结果再进行排序。

"2013年Ovid数据库检索简介-图书馆.ppt

Ovid数据库检索-图书馆.ppt是一份介绍Ovid数据库检索功能的PPT文档，旨在帮助图书馆工作人员和医学专业人士了解和熟练使用Ovid平台的检索工具，以便更好地获取所需的医学文献信息。通过本文档的学习，用户可以清楚地...