【AI大模型应用开发】【补充知识】文本向量化与向量相似度（含Python代码）

原创

于 2025-04-05 10:32:41 发布 · 620 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #python #开发语言 #LLM #agent #大模型 #AIGC

在上篇文章【AI大模型应用开发】3. RAG初探 - 动手实现一个最简单的RAG应用中，我们动手实现了一个RAG基本流程。里面涉及到向量数据库和向量检索。对于没接触过的人可能比较懵。本文介绍下文本向量化的概念，以及向量检索的原理，只是简单介绍，不会深入，所以不用担心看不懂 ，想要详细研究的，可以去搜相关论文，涉及到机器学习和模型训练等。

0. 文本向量

0.1 什么是文本向量

文本向量（Text Vector）是一种将文本数据转换为数值向量的技术，以便于机器学习和数据分析。通过将文本数据转换为数值向量，我们可以使用机器学习算法对文本数据进行处理和分析。

0.2 文本向量是怎么得到的

（1）构建相关（正立）与不相关（负例）的句子对儿样本

（2）训练双塔式模型，让正例间的距离小，负例间的距离大

参考：arxiv.org/pdf/1908.10…

1. 获取文本向量

前面已经说了文本向量是怎么得到的，其实也是训练了一个模型。使用这个训练的模型，给一个输入，就可以得到该输入的向量。这里我们可以使用OpenAI开放的文本向量化接口embeddings.create来获取某个文本的向量值。

python
复制代码
from openai import OpenAI
import os
# 加载环境变量
from dotenv import load_dotenv,

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

万天峰

关注关注

6
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

大语言模型应用指南：文本的向量化

AI天才研究院

05-26

804

1. 背景介绍近年来，人工智能领域的发展速度越来越快，其中以大语言模型（Large Language Model, LLM）而闻名。这些模型通过自监督学习，能够生成高质量的文本，并在多个领域取得了显著的进展。然而，LLM 的应用还面临着许多挑战，尤其是在处理和理解文本向量化这一领域。文本向量化是将文本转换为向量表示的过程，可以用于各种应用，如文本搜

【NLP笔记】文本向量化

weixin_36488653的博客

03-15

9218

在自然语言处理中，文本向量化（Text Embedding）是很重要的一环，是将文本数据转换成向量表示，包括词、句子、文档级别的文本，深度学习向量表征就是通过算法将数据转换成计算机可处理的数字化形式。

参与评论您还未登录，请先登录后发表或查看评论

文本向量化（Embedding）模型

最新发布

翱翔-蓝天

03-24

2986

将文本（单词、句子、段落、文档）通过特定模型映射为稠密向量（Dense Vector），用于表示文本的语义信息。BGE（BAAI General Embedding）系列出自：北京智源研究院（BAAI）版本：bge-small（256维，轻量）bge-base（768维，效果平衡）bge-large（1024维，效果最优）亮点：针对检索任务优化多语言支持（M3版本）文本检索与RAG问答强项适合场景：知识库、问答系统、相似度计算场景推荐模型推荐数据库中文RAG检索。

NLP学习路径（七）：NLP文本向量化

jiaojiaolou的博客

04-10

3498

1、文本向量化概述（1）含义文本向量化就是将文本表示成一系列能够表达文本语义的向量。词语都是表达文本处理的最基本单元。当前阶段，对文本向量化大部分研究都是通过词向量化实现的。但也有一部分将文章或者句子作为文本处理的基本单元，于是产生了doc2vec和str2vec技术。（2）方法 word2vec(词语)，doc2vec(文章)，str2vec(句子) 2、向量化算法...

大模型系列：OpenAI使用技巧_做文本向量化以及2D、3D可视化

数智笔记

12-30

2253

本笔记本包含一些有用的代码片段，您可以使用这些代码片段通过OpenAI API将文本嵌入到“text-embedding-ada-002”模型中。我们将使用t-SNE将嵌入的维度从1536降低到2。一旦嵌入被降低到两个维度，我们可以在2D散点图中绘制它们。将嵌入的维度从1536降低到3。然后我们可以在一个3D图中可视化数据点。即使在降维后的二维空间中，我们仍然可以观察到良好的数据分离。我们按照每个评论的星级评分进行着色，从红色到绿色。我们使用t-SNE分解将维度降至2维。中随机抽样200个样本进行策划的。

【AI大模型】Embedding模型解析文本向量知识库的构建和相似度检索

生活需要深度

10-22

2278

在大模型中，"embedding"指的是将某种类型的输入数据（如文本、图像、声音等）转换成一个稠密的数值向量的过程。这些向量通常包含较多维度，每一个维度代表输入数据的某种抽象特征或属性。Embedding 的目的是将实际的输入转化为一种格式，使得计算机能够更有效地处理和学习在这里插入图片描述文本Embedding在自然语言处理（NLP）中，文本embedding是一个常见的概念。是将文字或短语转换成数值向量的过程。这些向量捕捉了单词的语义特征，例如意义、上下文关系等。

如何利用大模型结合文本语义实现文本相似度分析？

小小晓晓阳的博客

02-05

7179

常规的文本相似度计算有TF-IDF，Simhash、编辑距离等方式，但是常规的文本相似度计算方式仅仅能对文本表面相似度进行分析计算，并不能结合语义分析，而如果使用机器学习、深度学习的方式费时费力，效果也不一定能达到我们满意的状态，随着大模型技术的日渐成熟，我们是否可以利用大模型来完成文本相似度分析呢？方式一虽然结果更加准确，可解释性也更强，但调用大模型分析会相对比较耗时，且资费较贵，所以我们也可以采用生成文本embedding向量的方式来计算文本相似度，以文心一言embedding接口为例，代码示例如下。

AI应用开发-python实现文本向量化及文本相似度计算

03-06

887

完结，撒花！

Python-面向文本分类的经典向量化方法实现与比较

08-12

Text vectorization tool to outperform TFIDF for classification tasks

【大语言模型】基础：如何处理文章，向量化与BoW

Hyman Qiu

04-12

1445

文档与语料库文档是您用例的最小文本单位语料库是您的文档集合用例：考虑您正在寻找答案的典型问题查询：您将用来在语料库中搜索的文本分词器分词器是一个程序，它接收文本并将其拆分成更小的单元。一本书可以被拆分成章节、段落、句子、单词。这些都是分词过程的例子。一旦文本被分词成句子，您就可以将句子分词成单词。句子在自然语言中，文本由多个句子组成，句子之间通过如这样的标点符号分隔。然而，将文本拆分成句子仍然是一个挑战，因为一些表示缩写，例如。单词任何文本都是由单词组成的。

大模型系列：OpenAI使用技巧_使用文本向量化Embeding进行分类

数智笔记

12-30

1307

在这个文本分类任务中，我们基于评论文本的嵌入预测食品评论的评分（1到5）。我们将数据集分为训练集和测试集，以便在未见数据上实际评估性能。本笔记本分享了使用嵌入进行文本分类的示例。对于许多文本分类任务，我们已经看到微调模型比嵌入效果更好。毫不意外，5星和1星的评论似乎更容易预测。也许有更多的数据，2-4星之间的细微差别可以更好地预测，但人们如何使用中间分数也可能更加主观。五星级评论总体上表现最好，这并不太令人惊讶，因为它们在数据集中最为常见。我们还建议拥有比嵌入维度更多的示例，但我们在这里并没有完全实现。

1. 文本相似度计算-文本向量化

weixin_30339457的博客

10-14

659

1. 文本相似度计算-文本向量化 2. 文本相似度计算-距离的度量 3. 文本相似度计算-DSSM算法 4. 文本相似度计算-CNN-DSSM算法 1.前言在自然语言处理过程中，经常会涉及到如何度量两个文本之间的相似性，我们都知道文本是一种高维的语义空间，如何对其进行抽象分解，从而能够站在数学角度去量化其相似性。有了文本之间相似性的度量方式，我们便可以利用划分法的K-means、基于密度的DB...

【AI大模型应用开发】文本向量化与向量相似度（附Python代码）

2401_85378759的博客

09-20

1903

文本向量（Text Vector）是一种将文本数据转换为数值向量的技术，以便于机器学习和数据分析。通过将文本数据转换为数值向量，我们可以使用机器学习算法对文本数据进行处理和分析。

小学生也能听得懂的大模型 - Transformer 1

2401_85325557的博客

07-29

1568

参考 [小学生也能听得懂的大模型 Transformer 1]

RAG的基石：大语言模型文本向量化能力对比

python1234_的博客

08-28

1589

大家都比较关心大语言模型的能力，但往往容易忽略其向量化（Embedding）的能力。在RAG应用中，对文本进行向量化后再计算向量相似度，如余弦相似度，是文本检索生成的基础和前置环节。如果向量不准确，必定会影响相似度计算，进一步影响招回和重排，甚至知识抽取等下游任务，影响甚大。因而我们需要认真来对待其结果，并且对其正确性和合理性进行评价。本中对一些简单的文本对，使用不同的开源7B大语言模型来进行向量化，最终以其余弦相似度作为输出作为测试结果。

AI-自然语言处理-文本向量化

weixin_46414576的博客

05-27

834

学习目标 • 了解自然语言处理基本知识 • 掌握循环神经网络算法 • 掌握自然语言处理关键技术 • 了解自然语言处理的应用什么是文本向量化 • 文本向量化：将文本表示成一系列能够表达文本语义的向量。常用的向量化算法有： • one-hot &nb