从零开始：使用Hugging Face获取文本嵌入的三种方式

Hugging Face获取文本嵌入的三种方式

最新推荐文章于 2025-10-09 21:29:46 发布

原创

最新推荐文章于 2025-10-09 21:29:46 发布 · 1.3k 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#python

从零开始：使用Hugging Face获取文本嵌入的三种方式

在自然语言处理（NLP）领域，文本嵌入是将文本数据转换为数值表示的方法之一，使得机器学习模型能够更好地理解文本的语义信息。Hugging Face提供了多种方法来获得文本嵌入，包括本地加载模型、使用Hugging Face Inference API，以及从Hugging Face Hub生成嵌入。本篇文章将深入探讨这些方法，并提供代码示例。

1. 本地加载模型

为了本地获取文本嵌入，我们可以使用langchain和sentence_transformers库。这需要在本地安装模型，然后进行嵌入计算。

首先，确保安装必要的包：

%pip install --upgrade --quiet langchain sentence_transformers

然后，可以使用以下代码来加载嵌入模型并进行查询：

from langchain_huggingface.embeddings import HuggingFaceEmbeddings

embeddings = HuggingFaceEmbeddings()

text

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

tt_jishu

关注关注

13
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

从零开始：在AI原生应用中实现嵌入模型的完整指南

AI天才研究院

07-06

959

在AI驱动的应用开发新纪元，嵌入模型(Embeddings)已成为连接人类语言与机器理解的核心桥梁。本文将带领读者从零开始，全面掌握在AI原生应用中实现嵌入模型的完整流程。我们将从嵌入模型的基本概念讲起，逐步深入其工作原理、实现方法、优化策略以及实际应用场景。通过生动的比喻、清晰的代码示例和实用的架构设计，无论您是AI领域的新手还是有经验的开发者，都能从中获得将嵌入技术无缝集成到应用中的系统知识。

Transformer实战（5）——Hugging Face环境配置与应用详解

盼小辉丶的博客

06-20

8385

本文详细介绍 Transformer 模型的实践应用全流程。首先讲解基于 Anaconda 的环境配置，包括 transformers 库安装及 hf-mirror 镜像加速方案。然后以 BERT 为例，演示分词器使用、文本编码及 fill-mask 等任务实现，对比 PyTorch/TensorFlow 框架差异。接着展示 Hugging Face 社区模型应用，包括 GPT-2 文本生成和零样本分类。最后扩展至多模态领域，使用 CLIP 模型实现零样本图像分类。

参与评论您还未登录，请先登录后发表或查看评论

使用huggingface的text embedding models

我的博客

02-27

4092

使用huggingface的text embedding models

使用 Hugging Face 数据集构建 Embeddings 索引

发呆的比目鱼的博客

12-18

5302

使用 Hugging Face 数据集构建 Embeddings 索引本教程系列将涵盖txtai的主要用例，这是一个 AI 驱动的语义搜索平台。该系列的每章都有相关代码，可也可以在colab 中使用。 colab 安装依赖 pip install txtai pip install datasets 在此示例中，我们将加载ag_news数据集，该数据集是新闻文章标题的集合。这只需要一行代码！接下来，txtai 将索引数据集的前 10,000 行。在 msmarco 上训练的模型用于计算句子嵌入。句子转

AI大模型应用开发中使用HuggingFace进行Embedding的方案

最新发布

coding2008的专栏

10-09

605

摘要：本文介绍三种在国内使用HuggingFace Embedding的方案。方案一通过镜像网站使用Langchain调用API，需单独安装langchain-huggingface包；方案二将模型下载到本地后加载，推荐使用snapshot_download()从镜像站下载；方案三为前两种方案的结合。文中详细说明了各方案的安装配置步骤，并推荐了常用Embedding模型，包括多语言、英文及中文优化模型。本地化方案特别适合企业私有化部署，确保在无网络环境下仍可使用。（150字）

BGE embeddings: 使用Hugging Face实现高效文本嵌入

ppoojjj的博客

08-28

2169

BGE模型是一系列为通用目的设计的文本嵌入模型。它们在各种NLP任务上表现出色，特别是在文本检索和语义相似度计算方面。BGE模型有多个版本，从小型到大型，适应不同的应用场景和计算资源限制。BGE embeddings 提供了一种强大而灵活的方式来生成高质量的文本表示。通过Hugging Face平台，我们可以轻松地集成这些模型到我们的NLP项目中。无论是进行文本分类、信息检索还是构建对话系统，BGE embeddings都能提供卓越的性能。

[如何使用Hugging Face实现文档嵌入：详细指南]

khsgfaihfd的博客

12-06

2118

通过本文的学习，您应该已经掌握了如何使用Hugging Face的工具生成文本嵌入及其应用。同时，我们也讨论了使用过程中可能遇到的挑战及解决方案。

揭秘Hugging Face Instruct Embeddings：实现高效文本嵌入

bhawfgrcbtwny的博客

10-30

725

Hugging Face Instruct Embeddings是基于sentence-transformers框架的一个功能，用于将复杂文本转换为高效的数值表示（嵌入）。这些嵌入可用于信息检索、相似度计算和其他NLP任务。Hugging Face Instruct Embeddings提供了一种强大且灵活的方法来生成文本嵌入。通过合理配置和优化，开发者可以在多种NLP任务中受益。

使用Hugging Face进行文本嵌入推理：从零开始的实用指南

dsndnwfk的博客

11-16

671

TEI是一个用于部署和服务开源文本嵌入模型的工具包，支持流行的模型如FlagEmbedding、Ember、GTE和E5。利用Docker等容器技术，开发者可以轻松地在本地或云环境中运行这些模型。通过本文，你应该能够理解如何使用Hugging Face的TEI工具对文本进行嵌入推理。继续学习可以参考Hugging Face的官方文档和社区资源，以深入探索特定模型的配置和高级用法。

【从零开始理解Transformers】：深度剖析Hugging Face库架构，打造NLP模型基石

[【从零开始理解Transformers】：深度剖析Hugging Face库架构，打造NLP模型基石](https://img-blog.csdnimg.cn/5ec7bb267c7f40628231f85c4c29acbc.png) # 1. 理解Transformers的理论基础 ## 理解Transformers的理论...

深入探索：如何使用Hugging Face的Instruct Embeddings进行查询嵌入

qq_29929123的博客

10-16

582

Instruct Embeddings是Hugging Face提供的一类嵌入模型，专注于利用指令性信息来改善嵌入的质量。通过使用指令，你可以精细化嵌入过程，以满足特定的任务需求。Hugging Face的Instruct Embeddings为开发者提供了一种强大且灵活的方式来实现定制化的查询嵌入。通过结合适当的查询指令，你可以显著提高模型在不同任务上的表现。

【计算机视觉 | 自然语言处理】Hugging Face 超详细介绍和使用教程

热门推荐

wzk4869的博客

05-14

2万+

【计算机视觉 | 自然语言处理】Hugging Face 超详细介绍和使用教程

在Hugging Face上使用BGE模型进行文本嵌入

ppoojjj的博客

10-30

524

BGE模型为文本嵌入提供了强大且高效的解决方案。通过Hugging Face的接口，开发者可以轻松地集成这些模型并将其应用于各种NLP任务。

huggingface离线模型使用方法

07-22

1577

参考：https://huggingface.co/docs/transformers/installation#offline-mode

langchain 模型加载HuggingFaceEmbeddings、文本切割RecursiveCharacterTextSplitter与向量数据库使用FAISS

weixin_42357472的博客

10-11

4160

参考： https://github.com/TommyTang930/LangChain_LLM_ChatBot https://python.langchain.com/docs/integrations/vectorstores/faiss这里对着类进行了改写，对中文切分更友好用于后续输入的就是chunks，是一个列表对于HuggingFace上的模型可以加载用作文本向量模型；这里加载的下载好的离线模型text2vec-base-chinese 3、向量数据库使用FAISS embedding就是上

【大语言模型，数据向量化】向量化时使用本地HuggingFaceEmbeddings失败，调用embeddings时仍会去Huggingface下载的解决方法

qq_38148600的博客

02-27

854

我用下面代码加载模型，后面发现必须联外网才能使用，最后使用下面代码完成本地缓存文件的调用，

深入探讨Hugging Face Text Embeddings Inference：大规模文本嵌入的高效解决方案

dfvcbipanjr的博客

10-06

655

Text Embeddings Inference 提供了灵活且高效的嵌入解决方案，适用于各种自然语言处理任务。通过本文介绍的步骤，你能够轻松地将这些功能集成到你的应用中。Hugging Face 官方文档LangChain 文档与教程。

HuggingFaceBgeEmbeddings是什么？以及为什么这么用

yxx122345的博客

08-30

2524

数据并行：同一模型副本在不同设备上处理不同的数据子集，适合数据量大但模型较小的场景。Pipeline并行：模型按层分配到不同设备上，以流水线方式处理数据，适合超大模型。张量并行：单个张量被切分到多个设备上并行计算，适合超大张量的细粒度并行。模型并行：模型按模块或层分配到不同设备上，每个设备处理模型的一部分，适合超大模型。这些并行方式在实际应用中常常结合使用，以提高训练速度和处理超大模型的能力。

深入浅出：使用Hugging Face Instruct Embeddings构建智能文本检索系统

ppoojjj的博客

08-28

1245

Instruct Embeddings是在传统嵌入模型基础上的一种改进。它通过在训练过程中加入特定的指令，使模型能够生成更加针对性的嵌入向量。更好的任务适应性：可以根据不同的任务生成相应的嵌入。提高语义理解：指令可以帮助模型更好地捕捉文本的语义信息。灵活性：可以通过调整指令来优化不同场景下的表现。Hugging Face Instruct Embeddings为文本嵌入任务提供了一个强大而灵活的工具。通过合理使用这一技术，我们可以构建出性能优异的文本检索、文本分类等NLP系统。

Transformer从零实现与Hugging Face源码解析

本文标题“Transformer实现与解读[代码]”明确指出其内容聚焦于从零开始构建一个完整的Transformer模型，并深入剖析其实现细节，尤其强调编码器和解码器模块的构建过程以及对Hugging Face Transformers库的源码级...