私有化文本嵌入（Embedding） + Weaviate

最新推荐文章于 2025-05-10 20:35:12 发布

林森见鹿

最新推荐文章于 2025-05-10 20:35:12 发布

阅读量763

点赞数 3

CC 4.0 BY-SA版权

文章标签： embedding

本文链接：https://blog.youkuaiyun.com/qianyuanruqu/article/details/141197665

weavaite向量库可以集成第三方托管的模型，这使得开发体验得到了增强，例如

1、将对象直接导入Weaviate，无需手动指定嵌入(Embedding)

2、使用生成式AI模型(LLM)构建集成检索增强生成（RAG）管道

同时weaviate也可以与Transformers库无缝集成，允许用户直接在Weaviate数据库中利用兼容的模型。这些集成使开发人员能够轻松构建复杂的人工智能驱动应用程序

本文重点讨论通过本地模型文件（词嵌入模型gte-large-zh）来构建自定义Transformers模型镜像，通过与weaviate模块集成赋予weaviate文本嵌入功能。

构建自定义Transformers模型镜像

创建 Dockerfile 并下载模型

# 用于构建词嵌入模型镜像的基础镜像
FROM semitechnologies/transformers-inference:custom 
# 将本地词嵌入模型放到当前目录下（my-model） /app/models/model是词嵌入镜像生成后的位置
# 不要修改/app/model/model，因为这是weaviate应用程序指定的模型路径
COPY ./my-model /app/models/model

构建并标记 Dockerfile

docker build -f my-inference-image.Dockerfile -t my-inference-image .

在 Weaviate 实例中使用该镜像

配置docker-compose.yml文件

version: '3.4'
services:
weaviate:
&nbs

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

林森见鹿

关注关注

3
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

企业私有化大模型部署：从POC到生产环境

AI天才研究院

07-28

775

选择1-2个最具代表性、价值最高或最紧急的业务场景进行验证，而不是试图覆盖所有设想的功能。设定清晰、可达成的POC成功指标。例如：“在指定的客服FAQ数据集上，模型的Top-1准确率达到75%以上，平均响应时间低于2秒。POC阶段应控制人力、物力、财力的投入，避免过度工程化。为POC设定明确的时间限制，通常2-4周为宜，确保项目快速推进。POC目标与范围回顾。数据、模型、环境、方法描述。详细的评估结果（定量+定性）。遇到的问题与挑战。成本与资源消耗估算。风险分析。

向量数据库对比和选择：Pinecone、Chroma、FAISS、Milvus、Weaviate

最新发布

Cachel Wood的博客

05-27

499

摘要本文对比了五种主流向量数据库（Pinecone、Chroma、FAISS、Milvus、Weaviate）的功能、性能、生态及成本。功能方面，Pinecone和Milvus适合大规模实时场景，Chroma轻量易用，FAISS适合离线分析，Weaviate支持多模态检索。性能上，FAISS查询最快，Pinecone和Milvus吞吐量高。生态方面，Pinecone和Milvus集成丰富，Chroma适合快速开发。成本上，FAISS和Chroma开源免费，Pinecone为云服务付费。选型建议：小规模选C

参与评论您还未登录，请先登录后发表或查看评论

向量库Weaviate的搭建和使用

leonhongliang806的博客

05-16

3516

向量数据库Weaviate使用教程(安装+使用)

weixin_45683241的博客

07-17

2万+

向量数据库Weaviate使用教程(安装+使用)

AI大语言模型LLM学习-语义检索(RAG前导篇)

fengqiuhuang123的专栏

09-10

2906

大语言模型中存在的过时、不准确、幻觉、一本正经的胡说八道、基于互联网数据训练这些缺点，因此，直接使用大语言模型生成的内容在商业场景中，特别是涉及到一些专业领域以及私有数据的场景，是无法提供准确或有价值的信息的。因此，大模型的应用通常需要与搜索技术相结合。所谓语义检索（也称基于向量的检索），是指检索系统不再拘泥于用户字面本身，而是能精准捕捉到用户的真正意图并以此来搜索，从而更准确地向用户返回最符合的结果。

RAG 系统高效检索提升秘籍：如何精准选择 BGE 智源、GTE 阿里与 Jina 等的嵌入与精排模型的完美搭配

python12345678_的博客

11-19

1132

MTEB: Massive Text Embedding Benchmark(海量文本嵌入基准)》判断哪些文本嵌入模型效果较好，通常需要一个评估指标来进行比较，《MTEB: Massive Text Embedding Benchmark(海量文本嵌入基准)》就是一个海量文本嵌入模型的评估基准github语义向量模型（Embedding Model）是语言模型生态体系中的重要组成部分，这一技术被广泛应用于搜索（Search）、问答（QA）、大语言模型检索增强（RAG）等应用场景之中。

通用文本嵌入（GTE）模型,使用入门

weixin_43949898的博客

08-14

1787

通用文本嵌入（GTE）模型。这使得 GTE 模型可以应用于文本嵌入的各种下游任务，包括信息检索、语义文本相似性、文本重排等。它通过一系列任务和数据集，对各种文本嵌入模型的性能进行评估，从而为研究者和开发者提供一个客观、全面的比较标准。MTEB的中文版（C-MTEB）是针对中文文本嵌入模型的评测基准。它涵盖了分类、聚类、检索、排序、文本相似度、STS（语义文本相似度）等多个经典任务，并提供了丰富的中文数据集。文本嵌入是一种将文本（如单词、句子或段落）映射到一个连续的数值向量空间的技术。

【AI大模型应用学习笔记】RAG-Embedding-Vector知识点学习

etrospect的博客

05-10

677

关于RAG-Embedding-Vector知识点，以及RAG实现的基本流程实操记录

RAG+AI工作流+Agent：LLM框架该如何选择，全面对比MaxKB、Dify、FastGPT、RagFlow、Anything-LLM,以及更多推荐

热门推荐

丨汀、的博客

07-30

3万+

RAG+AI工作流+Agent：LLM框架该如何选择，全面对比MaxKB、Dify、FastGPT、RagFlow、Anything-LLM,以及更多推荐

离线知识库服务(Langchain-Chatchat)本地搭建

蓝创精英团队

12-29

9563

AI Agent（人工智能体）是一种能够感知环境、进行决策和执行动作的智能实体。不同于传统的人工智能，AI Agent 具备通过独立思考、调用工具去逐步完成给定目标的能力。这个也是AutoGPT开源项目之后的一个新概念，通俗的来讲，就是这个大模型里集成了很多的工具，你可以让大模型自动调用你的工具来实现相关的业务，而这样的工具可能非常的多。就像RPA工具一样，而发号施令的人已经从人，换成了大模型本身而已。

bge-large-zh.zip

03-18

基于大模型llm的知识库智能问答系统建立所使用的模型bge-large-zh+chatglm3-6b

Huggingface模型下载

OkGogooXSailboat的博客

03-30

753

年终巨献 | OpenCSG开源SmolTalk Chinese数据集

OpenCSG的博客

01-07

860

其中OpenCSG的 Open是开源开放；分别在 smoltalk-chinese 和 infinity-instruct 数据集（选取7M和Gen的中文部分，约1M条）上进行微调，设置为2个训练周期，学习率为3e-4，采用余弦下降，global batch size 为32。在 alignbench 平台上评估模型的中文对话能力，结果表明，基于 smoltalk-chinese 微调的模型在多个指标上表现出显著优势，验证了 smoltalk-chinese 数据集在提升中文语言模型表现方面的有效性。

文本向量化推理框架（TEI）使用说明

weixin_37447415的博客

09-06

3892

(TEI)是Huggingface发布的一个用于部署和服务开源Text Embedding、Sequence Classification 和 Re-Ranking模型的工具包。相较于原生Transformers它可显著提升推理速度，并便于部署为推理服务。

向量数据库技术系列五-Weaviate介绍

恰恰虎的博客

03-16

2054

本文主要介绍了Weaviate的基本用法，并通过案例，实现了数据的向量化和近似检索。

使用weaviate实现向量存储

make_progress的博客

05-19

4654

当下开源的向量数据库比较多，主要分嵌入式向量数据库（数据库和应用在一起）和客户端-服务器模型向量数据库（客户端和服务器分离），比较出名数据库如下：嵌入式包括Chroma、lancedb，客户端和服务器分离的包括：Milvus、Faiss、Qdrant和Weaviate等。本文选择Weaviate。Weaviate是一个人工智能原生矢量数据库，强调与知识图的灵活高效交互，支持单节点和集群部署，支持关键词检索和语义检索。

使用Weaviate构建强大的自查询检索器：从零到一的指南

akhfuiigabv的博客

09-22

525

通过这篇文章，我们了解了如何使用Weaviate和自查询检索器进行电影数据的存储和检索。掌握这些工具后，您可以根据需要拓展到其他领域。Weaviate官方文档Langchain文档。

【RAG落地利器】向量数据库Weaviate部署与使用教程

Android23333的博客

02-08

7761

Weaviate 是一种开源的向量搜索引擎数据库，允许以类属性的方式存储 JSON 文档，并将机器学习向量附加到这些文档上，以在向量空间中表示它们。Weaviate 支持语义搜索、问答提取、分类等功能，并且可以通过 GraphQL-API 轻松访问数据。

weaviate向量库从零开始——weaviate cloud、weaviate docker安装配置及使用连接示例

Timmer的博客

05-08

1442

Weaviate简单简介和对比我们已经在上一篇中已经介绍过了。本篇主要介绍Weaviate cloud，Weaviate本地docker安装及相关的配置等。

Word Embedding + NN

03-23

### 关于词嵌入（Word Embedding）与神经网络结合使用的实现 #### 什么是词嵌入？词嵌入是一种将词语表示为高维空间中的连续向量的技术。这种技术的核心在于捕捉词语之间的语义关系，使得相似意义的词语在向量空间中距离更近。例如，`king` 和 `queen` 的向量会比 `king` 和 `apple` 更接近[^1]。 #### 为什么需要词嵌入？传统的独热编码（One-Hot Encoding）方法无法有效表达词语间的语义关联，因为它仅能区分不同词语而不考虑上下文信息。相比之下，词嵌入能够学习到词语的分布特性以及它们与其他词语的关系，从而显著提升自然语言处理模型的表现。 #### 常见的词嵌入算法 - **Word2Vec**: 使用浅层神经网络训练得到词语的分布式表示。它可以基于两种架构——CBOW（Continuous Bag of Words）和Skip-Gram来生成词向量。 - **GloVe (Global Vectors)**: 利用全局统计矩阵分解的方法构建词向量，在一定程度上弥补了Word2Vec局部窗口大小固定的不足。 - **FastText**: Facebook提出的改进版Word2Vec，支持子字符级别的特征提取，特别适合低资源场景下的应用。 #### 如何将词嵌入与神经网络相结合？ ##### 方法一：作为输入层的一部分可以通过预训练好的词嵌入初始化神经网络的第一层权重参数。具体操作如下： 1. 加载预先计算完成的标准词表及其对应的固定长度实数型向量； 2. 构建映射字典以便快速查找任意给定词汇所对应的具体数值表现形式； 3. 将每句话按照一定规则转换成由相应位置处取值组成的序列数组； 4. 把上述结果送入后续各隐藏单元继续加工直至最终输出预测类别标签为止。以下是利用PyTorch框架加载并运用Google News数据集上的Word2Vec模型的一个简单例子： ```python import torch from gensim.models import KeyedVectors # Load Google's pre-trained Word2Vec model. model_path = 'path/to/GoogleNews-vectors-negative300.bin' wv_from_bin = KeyedVectors.load_word2vec_format(model_path, binary=True) def get_embedding(word): try: return wv_from_bin[word] except KeyError: return None vocab_size = len(wv_from_bin.vocab) embedding_dim = wv_from_bin.vector_size weights_matrix = np.zeros((vocab_size, embedding_dim)) for i, word in enumerate(wv_from_bin.index_to_key): weights_matrix[i] = wv_from_bin[word] embeddings = nn.Embedding.from_pretrained(torch.tensor(weights_matrix).float()) ``` ##### 方法二：端到端联合优化如果目标领域内的文本资料充足，则可以直接采用随机初始化的方式定义新的Embedding Layer，并让整个系统自动调整其中涉及的各项系数直到满足预期性能指标为止。这种方法的好处是可以针对特定任务微调出更加贴合实际需求的新颖版本；坏处则是往往需要消耗更多的时间成本来进行迭代更新过程。 --- ### 工具推荐对于希望进一步探索大规模结构化存储解决方案的人士来说，Qdrant不失为一款值得尝试的产品。它不仅提供了强大的过滤功能还允许附加额外元数据字段用于辅助检索目的[^3]。