如何实现 Embedding 相似度查询

最新推荐文章于 2025-03-08 11:22:38 发布

原创

最新推荐文章于 2025-03-08 11:22:38 发布 · 1.1k 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#embedding #深度学习 #llamaindex

Embedding 是 LLM 的重要组件，如果通过 LlamaIndex 进行 Embedding 查询，使用 Vector Index 就可以方便的实现。如果我们想自己实现 Embedding 的相似度计算呢？Embedding 的流程是调用 Embedding 模型，模型返回向量，查询向量，自己实现的好处是不需要依赖 LlamaIndex，可以自己实现Vector存储、Vector 查询。这里我们可以借鉴 LlamaIndex 的实现方式，LlamaIndex 多种 Index，SummaryIndex 默认是返回所有的节点，同时也支持 Embedding 和 LLM 进行搜索。本文根据 SummaryIndex 的实现方式，实现自己的 Embedding 的相似度查询。

创建 Embedding

Embedding 是通过模型生成向量，LlamaIndex中，所有 Model 都是继承自 BaseEmbedding，通过get_query_embedding 获取向量，Ollama Embedding 创建 Vector。

from llm import get_ollama_embbeding

embed_model = get_ollama_embbeding()
res = embed_model.get_query_embedding("北京")

LlamaIndex 调用 Ollama API 获取 Embedding，可以通过 Ollama 的 Python 库自行调用。
在这里插入图片描述
生成向量：

相似度

有了 Embeddi

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

hawk2014bj

关注关注

5
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Metric评价指标-Embedding Similarity

lijiaqi0612的博客

02-22

2924

今天要更新的是Embedding Similarity，这个评价指标呢，是通过嵌入向量来计算相似度的一种方式，我们一起来学习下。欢迎关注知乎：世界是我改变的知乎上的原文链接一. Embedding Similarity介绍 1. 原理介绍及公式 Embedding Similarity，顾名思义就是通过嵌入向量来计算相似度，这个评价指标在网上的资料比较少，我今天来总结一哈。采用Embedding的方式来进行相似性度量，并返回一个度量相似性的数字。请记住，Embedding只是数字的向

海量Embedding进行相似度查询和比较的方法

qysh123的专栏

02-08

4447

这个是在科研中的现实需求。例如每一个源代码文件，我们可以生成一个embedding，如果有超过5000万个embedding（例如用BERT生成5000万个embedding），怎么样有效地计算相似性呢（例如有5000个positive的embedding，想在5000万个中找到类似的）。简单介绍一下我尝试的结果：如果直接用torch.cosine_similarity，我手里的数据估计至少要处理两个月。这时候就想到了用LSH -- Locality Sensitive Hashing，但是我之前并没怎

参与评论您还未登录，请先登录后发表或查看评论

Embedding Methods-从相似度出发进行细粒度文本分类

kuxingseng123的博客

11-01

719

论文先主攻细粒度文本进行练习即可。

embedding模型计算相似度

xycxycooo的博客

08-27

1426

AutoModel。

【AI大模型】Embedding模型解析文本向量知识库的构建和相似度检索

大数据小禅的博客

05-23

2728

在大模型中，"embedding"指的是将某种类型的输入数据（如文本、图像、声音等）转换成一个稠密的数值向量的过程。这些向量通常包含较多维度，每一个维度代表输入数据的某种抽象特征或属性。Embedding 的目的是将实际的输入转化为一种格式，使得计算机能够更有效地处理和学习文本Embedding在自然语言处理（NLP）中，文本embedding是一个常见的概念。是将文字或短语转换成数值向量的过程。这些向量捕捉了单词的语义特征，例如意义、上下文关系等。

使用 Postgres Embedding 实现高效向量相似度搜索

mmlihaio的博客

09-14

742

使用 HNSW 算法进行精确和近似最近邻搜索L2 距离计算与 PostgreSQL 深度集成，可以利用 PostgreSQL 的强大功能高效的近似最近邻搜索，适用于大规模向量数据支持exact和approximate搜索模式，可以根据需求平衡精度和速度Postgres Embedding 为向量相似度搜索提供了一个强大而灵活的解决方案。通过结合 PostgreSQL 的功能和 HNSW 算法，它能够高效地处理大规模向量数据。

Doc Embedding-语义相似度计算

百川的博客

01-07

6667

数据集公开数据集英文： GLUE数据集中的MNLI, QQP, QNLI, STS-B, MRPC, RTE ,[SWAG]. STS基准收集了2012年至2017年国际语义评测SemEval中所有的英语数据。 SICK数据集包含了10000对英语句子，其中的标签说明了它们之间的语义关联和逻辑关系 [SEMEVAL-2012] (http://www.cs.york.ac.uk/semeva...

使用有道bce-embedding-vase-v1模型构建知识向量库并进行相似度搜索

一个学长的博客

03-21

8916

最开始使用LangChain结合通义千问API实现了基础的RAG（Retrieval-Augmented Generation）过程，当时认为embedding模型似乎是LangChain的一部分，然后又通过学习OpenAI的API发现，其实使用embedding模型不需要一定捆绑在LangChain上，可以作为一个独立的API来使用，因此在尝试实现了OpenAI的embedding模型之后，将当初结合LangChain使用的国产的有道的embedding模型来进行一下向单独的知识向量库的生成。

Xlnet句向量实现(embedding)与句子相似度计算

大漠帝国的博客

08-28

4425

一.Xlnet概述 Xlnet是bert预训练模型之后NLP领域的又一重大进展，它充分吸收了Bert的双向语言模型(自编码-MaskLM机制)、预训练+Finetun机制(Transformer特征抽取)、大规模语料训练经验(corpus)、句子级别表征(sentence-level representation)等成功经验，开创性的引入Permutation Language...

使用embedding实现简单的内容查找

m0_56053705的博客

01-30

2033

近两天学习了一点深度学习的内容。学的比较浅，想将自己的收获和理解记录下来，本文是基于langchain框架使用embedding实现简单的内容查找。话入正题。embedding在深度学习中通常用于NLP（自然语言处理）。其作用是将文本处理成一个张量。

使用langchain及llama_index实现基于文档（长文本）的相似查询与询问

HYY的博客

05-31

1万+

langchain是一个功能强大的库，它为我们提供了许多方便的工具和模型，包括OpenAI模型。它通过链式调用的方式将这些组件连接在一起，创造出一个连贯的应用程序。同时，langchain还提供了内存组件Memory，可以帮助我们管理之前的聊天消息，以及Indexes和Agents等功能。LlamaIndex（GPT Index）是一个用于LLM应用的数据框架，集成了langchain及chatgpt相关应用，更便于我们实现结构化数据和高级检索的相关功能。

利用Embedding优化搜索功能

火烧径-make life easier

01-03

1491

学习如何用embedding优化搜索，即通过语义来搜索（在给定一段输入文本的情况下检索语义相似的文本），而非传统的基于关键词分词的搜索。

使用本地LLM和嵌入模型进行简单文本查询

ppoojjj的博客

07-03

540

在本文中，我们将介绍如何使用本地大语言模型（LLM）和嵌入模型进行简单的文本查询。我们将使用BAAI/bge-small-en-v1.5作为嵌入模型，并通过Ollama加载Mistral-7B模型来实现这一目标。

如何评估和测试嵌入式大模型的应用

qq_43305605的博客

09-02

1121

随着人工智能的快速发展，嵌入式大模型（embedding model）在各种应用场景中得到了广泛应用。从推荐系统、自然语言处理到图像识别，这些模型通过将复杂的数据转化为可操作的低维向量，使得计算和处理更加高效。然而，对于软件测试工程师来说，如何评估和测试这些嵌入式大模型却是一个新的挑战。本篇文章将从以下几个方面展开讨论。

LLM架构（2）: Embedding(嵌入)解析