获取嵌入(Embeddings)的方法与实践

最新推荐文章于 2025-12-14 20:30:00 发布

原创

最新推荐文章于 2025-12-14 20:30:00 发布 · 432 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

获取嵌入(Embeddings)的方法与实践

摘要

本文详细介绍了获取嵌入(Embeddings)的多种方法，包括降维技术和神经网络训练方法。通过具体的实例和可视化展示，我们将了解如何将高维数据转换为有意义的低维表示，以及如何根据具体任务需求选择合适的嵌入方法。

获取嵌入的主要方法

1. 降维技术

降维技术是获取嵌入的传统方法之一。这些数学方法可以捕捉高维空间中的重要结构，并将其映射到低维空间。

主成分分析(PCA)示例

假设我们有以下词袋向量：

文档1: [1, 0, 1, 0, 1]
文档2: [1, 1, 0, 0, 1]
文档3: [0, 1, 1, 1, 0]

通过PCA，我们可以将其降维为：

文档1: [0.8, 0.2]
文档2: [0.7, 0.3]
文档3: [0.3, 0.7]

2. 神经网络训练方法

2.1 嵌入层设计

在神经网络中，我们可以设计专门的嵌入层：

输入层 -----> 嵌入层 -----> 隐藏层 -----> 输出层
[1000维]     [d维]        [n维]        [m维]

2.2 食物推荐系统示例

让我们通过一个食物推荐系统的例子来说明：

数据准备：
- 收集用户最喜欢的5种食物
- 使用4种食物作为特征
- 第5种食物作为预测目标

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

未来创世纪

关注关注

3
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

聊聊 词嵌入 Word Embeddings

AI天才研究院

08-11

470

在自然语言处理（NLP）中，词嵌入（word embeddings）是通过学习将文本中的词映射到高维空间的向量表示的一种预训练模型。在本文中，我们会简要地介绍一下词嵌入的基本概念、应用场景以及两种主要的实现方法——GloVe 和 Word2Vec。词嵌入可以帮助机器学习算法解决诸如“给定一个词，找到其上下文环境”、“相似的词之间关系”、“词性或语法特征识别”等重要信息提取任务。在实际应用过程中，由于词嵌入往往具有较好的泛化能力，因此被广泛应用于多种领域，例如语音识别、图像理解、推荐系统、搜索引擎等。

机器学习20：嵌入-Embeddings

Jin_Kwok的博客

07-04

2398

嵌入（Embeddings）是一个相对低维的空间，我们可以将高维向量转换到其中。嵌入使得对大型输入（例如表示单词的稀疏向量）进行机器学习变得更加容易。理想情况下，嵌入通过将语义相似的输入紧密地放置在嵌入空间中来捕获输入的一些语义。嵌入可以在模型中学习和重用。

参与评论您还未登录，请先登录后发表或查看评论

Milvus嵌入模型Embeddings

Made In SQL

05-10

1131

Embeddings是机器学习中的一种技术，用于将数据（如文本、图像）映射到高维空间，通过向量表示其语义。这些向量在高维空间中的距离可以反映原始数据的语义相似性，广泛应用于信息检索、产品推荐和生成式人工智能等领域。嵌入模型主要分为密集嵌入和稀疏嵌入两类，前者生成高维浮点向量，后者生成大部分维度为零的高维向量。Milvus是一个专为向量数据管理设计的数据库，支持多种嵌入模型，如BAAI/bge-base-en-v1.5和BGEM3，简化了文本到向量的转换和检索增强生成（RAG）的开发。通过PyMilvus库，

在LLM中，如何选择嵌入模型？

gongdiwudu的专栏

10-27

3472

我们大多数人都在使用 OpenAI 的 Ada 002 进行文本嵌入。原因是 OpenAl 构建了一个很好的嵌入模型，它比其他任何人都早得多就易于使用。然而，这是很久以前的事了。看一下 MTEB 排行榜就知道，Ada 远非嵌入文本的最佳选择。

LangChain-11嵌入模型(Embeddings Model)

d3y1`5 81_09

09-17

518

嵌入模型是LangChain中将文本转换为数字向量的核心组件，主要用于语义理解和文本处理。它解决了计算机无法直接理解文本的难题，通过将文本转换为密集向量，实现语义相似度计算、同义词识别和上下文感知。 LangChain支持多种嵌入模型： OpenAI模型（如text-embedding-ada-002）提供高质量的通用嵌入 HuggingFace模型（如中文专用text2vec-base-chinese）支持多语言和特定领域优化本地模型适合离线或隐私敏感场景嵌入模型具有语义保持性、上下文敏感性、维度高效

使用Jina Embeddings进行文本与图像嵌入

eahba的博客

03-23

277

嵌入技术是AI领域中重要的技术之一，它通过将文本或图像转换为高维向量，使机器能够理解和处理数据。Jina Embeddings提供了一种强大的嵌入服务，可以让开发者轻松完成文本和图像的语义嵌入。

基于AIGC的跨语言文本嵌入方法与实践指南

AI天才研究院

05-18

988

本文旨在全面介绍基于AIGC的跨语言文本嵌入技术，涵盖从理论基础到实践应用的完整知识体系。跨语言文本嵌入的核心概念和技术原理主流的多语言预训练模型架构跨语言对齐的数学基础和算法实现实际应用场景和性能优化策略前沿研究方向和未来发展趋势本文的范围包括但不限于英语、中文、法语、西班牙语等主要语言的文本嵌入技术，特别关注低资源语言的跨语言表示问题。背景介绍：建立基本概念和知识框架核心概念：深入分析跨语言文本嵌入的技术原理算法实现：通过代码示例展示具体实现方法。

Word Embeddings原理与代码实例讲解

AI天才研究院

06-16

888

词嵌入是将词语表示为实数向量的技术，这些向量通常位于高维空间中。通过这种表示，词语之间的语义关系可以通过向量之间的距离和方向来度量。动态词嵌入：随着BERT等动态词嵌入模型的出现，词嵌入技术将更加灵活和强大。多语言词嵌入：未来的词嵌入技术将更加注重多语言支持，提升跨语言NLP任务的性能。领域自适应：词嵌入技术将更加注重领域自适应，提升在特定领域的表现。词嵌入是将词语表示为实数向量的技术，用于捕捉词语之间的语义关系。

使用LangChain与Clova Embeddings进行文本嵌入的详细实践

Shell726的博客

01-23

382

Clova是由Naver提供的强大AI平台，提供了一系列AI服务，其中包括文本嵌入服务。文本嵌入技术是自然语言处理（NLP）的基石之一，将文本转换为可供机器学习模型使用的向量格式。通过将语言表示为密集向量，我们能够在语义空间中度量文本之间的相似度，这对文本分类、聚类和信息检索等应用特别有用。

Word Embeddings: 词嵌入的原理、概念和主要的应用场景，并介绍一些词嵌入方法的细节和使用词嵌入的方法的案例

AI天才研究院

08-11

729

自然语言处理(NLP)任务中经常需要对文本进行特征提取、文本表示学习或文本相似性计算。在这些任务中，用到的文本数据通常是海量的文档，这些文档中往往会包含多种形式的噪声、歧义和不完整信息。例如，同一个词可能有不同的词形，或者短语的缩写等等。要有效地解决这一类问题，需要基于语料库中的大量文本数据训练预训练好的模型，然后将这些模型应用到特定任务中去。其中最典型的方法就是词嵌入(Word embeddings)，它能够捕获上下文环境中的相似性，并把文本转化成向量的形式。

word_embeddings：与单词嵌入混淆

02-13

这个标题“word_embeddings：与单词嵌入混淆”暗示我们将深入探讨这个主题，并澄清可能存在的误解。单词嵌入是一种机器学习技术，它通过学习大量文本数据中的上下文关系，捕捉到词汇的语义和语法特性。这些向量...

如何用AI处理音乐音频消除作品信息里的 AI 痕迹-程序员音乐人卓伊凡

一颗优雅草科技-央千澈的优快云博客~只想无穷无尽的学习~作息早8-晚8

12-11

970

如何用AI处理音乐音频消除作品信息里的 AI 痕迹-程序员音乐人卓伊凡

深度学习下载包时可能会遇到的问题及解决方案

m0_50481455的博客

12-09

496

若确实下载安装了CUDA ，但是此时输出的CUDA是否可用为否，应该是torch的版本为cpu版本导致，刚刚的下载包的语句如果总是下载的是cpu版本，我们考虑直接去网站下指定包，再进行安装。CUDA Version表示的是驱动支持的最高 CUDA 版本，去官网下载 CUDA ，我这里是12.2，表示下载的版本最大只能是12.2。然后下载包时，比如本地环境是Python3.9，找包下载时候，3.9要下对应cp39的包。下载好后，执行语句安装。

精品数据分享 | 锂电池数据集（七）同济大学电池数据集

12-11

838

本期继续分享一篇Nature communicationTop论文公开锂离子电池数据，划重点-数据集开源，代码开源！！！

AIDD-人工智能药物设计-扩散模型热力学：从 AI 提取物理能量

itwangyang520的博客

12-14

389

扩散模型的核心是加噪与去噪。这对业界的启示是，要实现精准医疗，特别是针对耐药突变的药物设计，不能仅依赖大语言模型（Large Language Model, LLM）处理序列。他们从文献和数据库中挖掘了过去被忽略的细节：氨基酸的替换、插入、缺失，以及关键的磷酸化修饰，最终整理出 4032 对新的激酶 - 配体数据。GeneGPT 曾展示了大语言模型（LLM）在生物医药领域的潜力，而 OpenBioLLM 提出了不同于 GeneGPT 单体（Monolithic）架构的方案：组建由「专家」构成的团队。

vLLM推理引擎教程4-离线推理功能

benben044的专栏

12-12

708

本文介绍了使用vLLM框架优化推理性能的多种方法。主要内容包括：1）基础文本生成、对话式推理、文本分类和嵌入提取四种任务的基本实现；2）自动前缀缓存功能，通过共享KV缓存加速长上下文处理；3）使用YARN方法扩展模型上下文长度；4）多模态任务处理示例（Whisper语音识别）；5）底层LLMEngine API的使用。文章通过具体代码示例展示了如何设置参数实现各类推理优化，包括温度调节、top-p采样、缓存复用等技巧，适用于文本生成、分类、嵌入等多种NLP任务场景。

观成科技:Zloader木马家族加密流量分析

GCKJ_0824的博客

12-12

529

摘要：Zloader木马最初作为银行木马Zeus的下载器，现被广泛用于勒索软件投递。其采用多种加密通信技术规避检测：1）DGA技术生成随机域名；2）DNS隧道隐藏数据；3）HTTPS加密通信；4）Websocket掩码加密。最新版本通过会话密钥强化DNS隧道加密。观成科技利用AI模型结合TLS指纹检测HTTPS加密流量，持续通过行为分析和机器学习应对加密威胁。研究表明，恶意软件正不断升级流量对抗技术，凸显加密流量检测的重要性。（149字）

基于偏最小二乘算法（PLS）的多输出数据回归预测

最新发布

2508_94230129的博客

12-14

150

PLS算法可以理解为是主成分分析（PCA）和多元线性回归（MLR）的结合体。它能够在处理自变量存在多重共线性的情况下，有效地进行回归建模。在多输出数据回归场景中，PLS可以同时对多个因变量进行建模预测，挖掘自变量和多个因变量之间的潜在关系。通过以上Matlab代码，我们完成了基于PLS算法的多输出数据回归预测的基本流程，从数据准备、建模到预测。PLS算法在处理多变量、多重共线性的数据时有着独特的优势，希望大家在实际项目中可以尝试应用它，挖掘数据背后的潜在规律。

强化学习入门-7(DDPG)

weixin_43823753的博客

12-14

572

注意这里Critic网络输出的是QsaQ(s, a)Qsa，因此输入层节点个数为状态与动作维度之和nn.ReLU(),nn.ReLU(),nn.Tanh(),nn.ReLU(),nn.ReLU(),

embeddings-嵌入

03-29

### Embeddings 技术的使用方法与实现方式 #### 什么是 Embeddings？ Embeddings 是一种将离散数据（如单词、文档或其他结构化对象）映射到连续向量空间的技术。这种技术广泛应用于自然语言处理（NLP）、图像识别等领域，其核心目标是捕捉输入数据之间的语义关系。 --- #### 使用 Python 操作 Embeddings 的基本流程[^1] 以下是基于 Python 实现 Embeddings 的通用步骤： 1. **安装必要的依赖库** 需要先安装支持 Embeddings 计算的相关库，例如 `transformers` 和 `sentence-transformers`。 ```bash pip install transformers sentence-transformers torch ``` 2. **加载预训练模型** 利用 Hugging Face 提供的接口加载一个预训练好的 BGE 模型，例如 `"BAAI/bge-small-en"`[^5]。 ```python from sentence_transformers import SentenceTransformer model = SentenceTransformer('BAAI/bge-small-en') ``` 3. **生成文本嵌入** 将待处理的文本传递给模型，获取对应的嵌入向量。 ```python sentences = ["This is an example sentence.", "Each sentence is converted."] embeddings = model.encode(sentences) print(embeddings.shape) # 输出形状 (n, d)，其中 n 表示句子数量，d 表示维度大小 ``` 4. **保存或应用嵌入结果** 可以将生成的嵌入存储下来或者直接用于后续任务，比如相似度计算、聚类分析等。 --- #### 使用 LocalAI 实现文本嵌入][^[^23] LocalAI 提供了一个简单易用的框架来生成和管理文本嵌入。以下是具体实现过程： 1. 安装 LocalAI SDK 并启动服务端程序。 ```bash docker run --rm -p 8080:8080 localai/localai:v0.7.0 ``` 2. 编写客户端代码调用 API 接口完成嵌入操作。 ```python import requests url = 'http://localhost:8080/v1/embeddings' data = { "input": "The cat sat on the mat.", "model": "text-embedding-model" } response = requests.post(url, json=data).json() embedding = response['data'][0]['embedding'] print(len(embedding)) # 打印嵌入长度 ``` 上述代码片段展示了如何通过 HTTP 请求的方式访问 LocalAI 提供的服务并提取所需的结果。 --- #### Infinity Embeddings 的本地部署方案[^4] 对于希望完全掌控运行环境的企业级用户来说，Infinity 开源项目提供了灵活多样的选项满足不同需求场景下的开发工作流设计思路指导原则如下所示: 1. 下载最新版本镜像文件构建容器实例执行命令行参数指定路径配置文件位置信息设置完成后即可正常投入使用； 2. 如果仅需测试功能无需额外硬件投入则推荐采用默认内置轻量化算法作为初始尝试；反之当面临复杂业务逻辑要求高性能表现时可考虑引入外部GPU加速卡提升整体效率水平达到预期效果为止结束整个环节直至最终交付成果物验收合格为止方能正式上线运营维护阶段持续改进优化现有架构体系结构图解说明如下： ```mermaid graph TD; A[下载 & 构建] -->|成功| B(初始化); B --> C{是否需要 GPU?}; C --Yes--> D[GPU 加速]; C --No--> E[CPU 运行]; D,E --> F[验证性能]; F --> G[上线/迭代]; ``` 此部分重点在于强调灵活性的同时兼顾成本效益比考量因素综合评估选取最适配当前实际情况的最佳实践指南仅供参考学习交流之目的而非绝对标准答案解读完毕谢谢！ --- ### 总结无论是借助第三方平台还是自行搭建基础设施，都可以有效达成利用 Embeddings 解决实际问题的目标。选择合适工具链组合取决于特定应用场景的具体约束条件以及团队技术水平积累程度等因素共同决定最佳实施方案方向指引路线图规划蓝图展望未来发展趋势前景广阔无限可能等待探索发现新大陆开启新征程书写新篇章共创辉煌明天共筑梦想家园共享美好生活愿景成真时刻来临之际让我们携手同行一路向前勇往直前无惧风雨迎接挑战战胜困难取得胜利果实分享喜悦收获满满幸福时光永驻心间铭刻历史丰碑见证时代变迁记录成长足迹留下珍贵记忆传承文明火种点燃希望灯火照亮前行道路引领方向坐标定位精准导航安全抵达目的地终点站台欢送旅客平安回家团圆相聚温馨港湾温暖怀抱拥抱彼此心灵相通情感共鸣共振频率和谐统一完美契合理想状态最高境界极致追求不懈努力奋斗拼搏成就非凡伟业铸就传奇佳话流传千古万代敬仰膜拜效仿追随榜样力量激励鼓舞人心士气倍增信心十足充满干劲热情高涨全力以赴全身心投入到伟大的事业建设当中去创造更加美好的明天吧朋友们加油啊！！！ ---