[通过RAG实现图像搜索与问答：利用多模态嵌入的实用指南]

最新推荐文章于 2025-06-05 23:53:27 发布

原创

最新推荐文章于 2025-06-05 23:53:27 发布 · 802 阅读

15 ·

CC 4.0 BY-SA版权

文章标签：

#python

通过RAG实现图像搜索与问答：利用多模态嵌入的实用指南

引言

在我们的智能手机中，视觉搜索已然成为一个熟悉的应用，它允许用户使用自然语言搜索照片。随着开源多模态大规模语言模型（LLM）的发布，我们现在可以为自己的私人照片收藏构建类似的应用程序。这篇文章将介绍如何利用nomic-embed-vision-v1多模态嵌入技术，以及Ollama进行私密的视觉搜索和问答。

主要内容

多模态嵌入及其应用

多模态嵌入技术使得我们可以通过一种统一的表示形式来处理文本和图像。这种技术在视觉搜索中尤为关键，它让我们能够为每幅图像生成可搜索的嵌入向量，并使用这些向量找到与用户查询最匹配的图像。

图片索引和存储

索引创建：要在一个图片集合上执行搜索，首先需要为这些图片创建索引。运行以下命令实现图片索引：
```
poetry install
python ingest.py
```
嵌入存储：本教程默认使用nomic-embed-vision-v1嵌入模型，该模型在首次运行时会自动下载。你也可以在rag_chroma_multi_modal/ingest.py中选择替代模型，例如OpenCLIPEmbeddings。

使用Ollama进行问答

Ollama是用于处理问答流程的默认模型。可以通过以下步骤下载和配置Ollama：

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

qwesrdftgh

关注关注

16
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

打造私人视觉搜索应用：使用多模态LLM和嵌入模型实现图像问答

akhfuiigabv的博客

10-04

1052

使用开源多模态LLM构建私人视觉搜索应用是可行的并具有很大的潜力。Ollama 官方文档LangChain 官方文档。

打造多模态搜索与RAG系统指南

Ai_Xiaofei的博客

06-26

1549

随着多模态数据（包括图像、音频、视频等）的日益普及，如何将多模态数据整合到RAG系统中，成为提升系统能力的重要课题。

参与评论您还未登录，请先登录后发表或查看评论

RAG增强的视觉问答开发框架

新缸中之脑

09-01

1441

检索增强生成 (RAG) 是一种强大的技术，可以提高大型语言模型 (LLM) 生成的答案的准确性和可靠性。它还提供了检查模型在特定生成过程中使用的源的可能性，从而使人类用户更容易进行事实核查。此外，RAG 可以使模型知识保持最新状态并整合特定主题的信息，而无需进行微调。总体而言，RAG 提供了许多好处和很少的缺点，并且其工作流程易于实施。正因为如此，它已成为许多需要最新和/或专业知识的 LLM 用例的首选解决方案。

做完RAG图片搜索后，才明白过去对RAG的理解完全不够！！

2401_85325397的博客

03-27

1528

在AI技术飞速发展的今天，图片RAG（Retrieval-Augmented Generation，检索增强生成）正逐渐成为多模态应用的“杀手锏”。无论是电商平台的“以图搜商品”，还是教育领域的“文本生成插图”，图片RAG通过检索与生成的高效结合，能带来令人惊叹的效果。

RAG技术新篇章：多模态图片检索的深度解析

2401_84204413的博客

08-19

2307

上篇文章我们做了文本、表格摘要，现在来做图片摘要，我们写了一个类。# 提示词希望LLM担任助理的角色，帮助给图片做摘要。摘要是基于图片的分析来做的，拿到摘要后可以用来做retrieval 也就是检索。"""content=[},# 使用的是base64编码的图片])# 返回的就图片数据和LLM返回当我们有了类，就可以和上篇文章一样做原图片和summarize的关联。摘要中，介绍了图片中包含了三个独立的图表，包含了不同的经济和市场数据。分别介绍了三个图标包含的数据信息。

Ollama 0.4 发布！支持 Llama 3.2 Vision，实现多模态 RAG

Everly_的博客

11-10

6263

最近，Ollama 推出了 0.4 版本，其中最大的亮点就是支持了模型，该模型具备多模态特性，也就是说能够理解图像并将图像纳入提示词中进行处理，让模型更智能地处理RAG中的数据源，实现强大的视觉处理功能，例如：手写识别，准确读取手写内容；OCR识别，识别订单、账单等文档；图表与表格识别，解析各类数据；图像问答，实现图片内容的问答交互。这种功能在之前的Ollama版本中是不支持的，因为Llama CPP不支持视觉模型。在本篇文章中，我们就来体验一下这个“多模态”神器。目前 Ollama 支持 11B 和

实现RAG 使用LangChain实现图检索查询，一文说清

2401_84265548的博客

04-16

1291

当我们运行向量搜索查询时，我们将查询的向量与CHUNK节点的向量进行比较，以找到最相似的文本。第二件要注意的事情是，这两个查询都返回相同的三个变量:文本、分数和元数据。文本变量包含相关文本，分数是块与搜索文本的相似度分数，元数据可以包含我们想要的上下文的任何其他信息。)来查找最相似的节点，并传递(YIELD)相似节点和相似度分数，然后将检索查询添加到向量搜索查询的末尾，以提取额外的上下文。我们知道相似性搜索查询将返回节点和分数变量，因此我们可以将这些变量传递到检索查询中，以提取这些相似节点的连接数据。

利用 Qwen 2 VL 与 Colpali 搭建多模态 RAG 系统的详细指南

最新发布

09-01

多模态 RAG 可以结合使用 Qwen-2-VL 和 ColPali 来实现。 ColPali 是一种基于视觉语言模型的新颖模型架构和训练策略，它是 PaliGemma-3B 的扩展，可生成 ColBERT 风格的文本和图像多向量表示。ColPali 可以将多模态...

打造高效多模态RAG系统：原理与评测方法详解

weixin_44872675的博客

06-05

1524

检索：从大规模文本数据库中查找与用户问题相关的片段。生成：将检索到的文本输入大语言模型（LLM），生成最终答案。忽略非文本信息：无法处理图像、表格等非结构化数据。上下文理解受限：仅依赖文本可能导致信息缺失或歧义。多模态RAG系统的评测是确保其有效性和可靠性的重要环节。通过EvalScope等框架，测试工程师可以全面评估系统的忠实度相关性和正确性，并针对性优化。本文提供了从文档解析、向量存储到生成评测的完整实践流程，结合代码示例与评测结果分析，帮助工程师快速构建高效的多模态RAG系统。

ollama调用千问2.5-vl视频图片UI界面小程序分享

Maya动画技术

05-18

2276

ollama调用千问2.5-vl视频图片UI界面小程序分享

AI: RAG之一多模态RAG实战 - 表格，文本

nalanxiaoxiao2011的博客

04-22

1006

AI: RAG之一多模态RAG实战 - 表格，文本

AI: RAG之三（多模态RAG - 图片）

nalanxiaoxiao2011的博客

04-22

1039

多模态（文字、表格、图片）RAG

JAVA开发AI应用（六）：调用Embedding大模型实现RAG(检索增强)

catastrophe_zy的博客

08-20

3689

Text Embedding ,文本向量化，知识库，向量数据库，RAG，AI 检索增强，AI 开发工具，AI开发框架，AIGS，AIGC

RAG 增强视觉问答的简单框架

ms44的专栏

09-05

1051

多模态 RAG 实践：用 Milvus+BGE+GPT-4o 构建智能图像检索系统

佑瞻的博客

04-29

1137

通过以上步骤，我们成功搭建了一个基于 Milvus、BGE 和 GPT-4o 的多模态 RAG 系统，实现了结合图像和文本的智能检索。多模态融合：通过 BGE 模型将图像和文本转化为统一的向量空间，让检索不再局限于单一模态。高效检索：Milvus 的向量检索能力能够快速处理海量数据，满足实时搜索需求。智能解释：GPT-4o 的重排和解释功能让检索结果更具可解释性，提升用户体验。数据优化：根据项目需求扩展数据集，确保数据的多样性和代表性，提高模型的泛化能力。模型调优。

本地部署大模型？看这篇就够了，Ollama 部署和实战

2401_85373898的博客

11-13

2434

如果要使用的模型不在 Ollama 模型库怎么办？至此，我们一起走完了 Ollama 的部署和实战流程。在我看来，Ollama 也许是目前最便捷的大模型部署和使用工具，对小白非常友好。简单的命令行操作，用户即可快速启动和管理模型，极大降低了技术门槛，用户可以专注于模型的应用，而无需关注底层技术细节。此外，Ollama 的离线运行也为数据安全提供了保障。期待大家在使用 Ollama 的过程中，发现更多有趣的 AI 应用场景。让我们一起推动大模型技术的应用落地，探索更广阔的可能性！

找不到图片？半小时实现一个“图片搜索引擎“

baidu_34494541的博客

12-21

2238

AI的快速发展可以让我们一个不是机器学习专业的也可以用模型做出一个有趣又有一些价值的AI项目。下面是我的几个启发1.学习AI从调接口开始，但不要只是调接口。调OPENAI的API是比较简单，上手快，可以快速做出一些案例。但不要把思维框在调接口里，Huggingface上还有大量好玩的模型，也不一定需要gpu，cpu上也可以玩起来，要多上手尝试，其实没想象中那么难。2.产品化我们这里只是投喂了一部电影，当我们投喂大量电影，并做出ui界面给普通用户使用，这里还是有很大商业价值的。

打造属于你的视觉搜索和问答应用：基于多模态嵌入与开源LLM的实现

nseejrukjhad的博客

10-04

521

通过本文，我们了解了如何利用开源的多模态嵌入和LLM实现私人照片集的视觉搜索和问答应用。你可以根据需要调整和扩展这个应用。LangChain官方文档Ollama官网Chroma多模态嵌入。

深度｜基于大模型的RAG应用中的四个常见问题及方案探讨【中】

bugyinyin的博客

09-08

1255

在构建基于大模型的RAG应用时，通常需要从大量的文档中导入私有知识，需要对其中的内容进行分割、嵌入与索引，从而能够在响应用户输入时检索到需要引用的关联知识。棘手的是，我们在处理这些文档时，往往面临的是一个混合了多种内容形式的文档，其中对于文本类型的内容处理相对简单，不管是纯文本，还是Markdown或者HTML；而相对复杂的是图片内容，如果没有完善的处理方案，那么就会丢失图片中的有价值信息。

2024 RAG大会技术合集：涵盖多模态与企业级应用实践

尤其值得注意的是，随着多模态数据的广泛应用，资料中还专门探讨了多模态RAG的实现路径——即如何对图像、音频、视频等非文本信息进行编码并与文本联合检索，进而支持跨模态问答与内容生成。这对于教育、安防、电商...