通过RAG实现图像搜索与问答:利用多模态嵌入的实用指南
引言
在我们的智能手机中,视觉搜索已然成为一个熟悉的应用,它允许用户使用自然语言搜索照片。随着开源多模态大规模语言模型(LLM)的发布,我们现在可以为自己的私人照片收藏构建类似的应用程序。这篇文章将介绍如何利用nomic-embed-vision-v1多模态嵌入技术,以及Ollama进行私密的视觉搜索和问答。
主要内容
多模态嵌入及其应用
多模态嵌入技术使得我们可以通过一种统一的表示形式来处理文本和图像。这种技术在视觉搜索中尤为关键,它让我们能够为每幅图像生成可搜索的嵌入向量,并使用这些向量找到与用户查询最匹配的图像。
图片索引和存储
-
索引创建:要在一个图片集合上执行搜索,首先需要为这些图片创建索引。运行以下命令实现图片索引:
poetry install python ingest.py -
嵌入存储:本教程默认使用
nomic-embed-vision-v1嵌入模型,该模型在首次运行时会自动下载。你也可以在rag_chroma_multi_modal/ingest.py中选择替代模型,例如OpenCLIPEmbeddings。
使用Ollama进行问答
Ollama是用于处理问答流程的默认模型。可以通过以下步骤下载和配置Ollama:

最低0.47元/天 解锁文章
1052

被折叠的 条评论
为什么被折叠?



