LangChain-KR项目中的HuggingFace Embeddings应用指南-优快云博客

LangChain-KR项目中的HuggingFace Embeddings应用指南

【免费下载链接】langchain-kr LangChain 공식 Document, Cookbook, 그 밖의 실용 예제를 바탕으로 작성한 한국어 튜토리얼입니다. 본 튜토리얼을 통해 LangChain을 더 쉽고 효과적으로 사용하는 방법을 배울 수 있습니다. 项目地址: https://gitcode.com/gh_mirrors/la/langchain-kr

引言

在自然语言处理(NLP)领域，文本嵌入(Embeddings)技术扮演着至关重要的角色。本文将深入探讨如何在LangChain-KR项目中利用HuggingFace提供的各种嵌入模型，包括其原理、实现方式以及实际应用场景。

环境配置

在开始之前，我们需要完成一些基础环境配置：

from dotenv import load_dotenv
load_dotenv()  # 加载环境变量中的API密钥

import os
import warnings
warnings.filterwarnings("ignore")  # 忽略警告信息

# 设置缓存路径
os.environ["HF_HOME"] = "./cache/"

示例数据准备

我们准备了一组混合中英文的示例文本，用于演示不同嵌入模型的效果：

texts = [
    "안녕, 만나서 반가워.",  # 韩语问候
    "LangChain simplifies the process of building applications with large language models",  # 英文描述
    "랭체인 한국어 튜토리얼은 LangChain의 공식 문서, cookbook 및 다양한 실용 예제를 바탕으로...",  # 韩语教程介绍
    "LangChain은 초거대 언어모델로 애플리케이션을 구축하는 과정을 단순화합니다.",  # 韩语描述
    "Retrieval-Augmented Generation (RAG) is an effective technique for improving AI responses.",  # 英文技术术语
]

HuggingFace端点嵌入

HuggingFaceEndpointEmbeddings通过InferenceClient计算嵌入向量，类似于LLM中的端点调用方式。

from langchain_huggingface.embeddings import HuggingFaceEndpointEmbeddings

model_name = "intfloat/multilingual-e5-large-instruct"

hf_embeddings = HuggingFaceEndpointEmbeddings(
    model=model_name,
    task="feature-extraction",
    huggingfacehub_api_token=os.environ["HUGGINGFACEHUB_API_TOKEN"],
)

文档嵌入与查询嵌入

# 文档嵌入
embedded_documents = hf_embeddings.embed_documents(texts)

# 查询嵌入
embedded_query = hf_embeddings.embed_query("LangChain 에 대해서 알려주세요.")

相似度计算原理

相似度计算通常使用向量内积(dot product)实现：

$$ \text{similarities} = \mathbf{query} \cdot \mathbf{documents}^T $$

向量内积与余弦相似度的关系：

$$ \mathbf{a} \cdot \mathbf{b} = |\mathbf{a}| |\mathbf{b}| \cos \theta $$

其中：

$|\mathbf{a}|$和$|\mathbf{b}|$是向量的欧几里得范数
$\theta$是向量间的夹角
$\cos \theta$就是余弦相似度

实际计算示例：

import numpy as np

# 计算查询与文档的相似度
similarities = np.array(embedded_query) @ np.array(embedded_documents).T

# 按相似度排序
sorted_idx = similarities.argsort()[::-1]

# 输出排序结果
print("[Query] LangChain 에 대해서 알려주세요.\n====================================")
for i, idx in enumerate(sorted_idx):
    print(f"[{i}] {texts[idx]}")
    print()

本地HuggingFace嵌入模型

除了端点方式，我们还可以直接加载模型到本地：

multilingual-e5-large-instruct模型

from langchain_huggingface.embeddings import HuggingFaceEmbeddings

model_name = "intfloat/multilingual-e5-large-instruct"

hf_embeddings = HuggingFaceEmbeddings(
    model_name=model_name,
    model_kwargs={"device": "mps"},  # 可使用cuda或cpu
    encode_kwargs={"normalize_embeddings": True},
)

BGE-M3模型

BGE-M3是当前表现优异的多语言嵌入模型：

from langchain_huggingface import HuggingFaceEmbeddings

model_name = "BAAI/bge-m3"
hf_embeddings = HuggingFaceEmbeddings(
    model_name=model_name,
    model_kwargs={"device": "mps"},
    encode_kwargs={"normalize_embeddings": True}
)

FlagEmbedding高级用法

FlagEmbedding提供了三种强大的嵌入技术组合：

Dense Vector：标准的密集向量表示
Sparse Embedding：基于词汇权重的稀疏表示
Multi-Vector(ColBERT)：基于上下文的细粒度表示

安装与初始化

from FlagEmbedding import BGEM3FlagModel

model_name = "BAAI/bge-m3"
bge_embeddings = BGEM3FlagModel(model_name, use_fp16=True)

密集向量应用

# 生成密集向量
dense_embeddings = bge_embeddings.encode(
    texts,
    batch_size=12,
    max_length=8192,
)["dense_vecs"]

稀疏向量(Lexical Weight)应用

稀疏向量特别适合精确词汇匹配：

sparse_embeddings = bge_embeddings.encode(texts, return_sparse=True)

# 计算词汇匹配分数
lexical_score = bge_embeddings.compute_lexical_matching_score(
    sparse_embeddings["lexical_weights"][0],
    sparse_embeddings["lexical_weights"][1]
)

多向量(ColBERT)应用

ColBERT提供更细粒度的上下文感知匹配：

colbert_embeddings = bge_embeddings.encode(texts, return_colbert_vecs=True)

# 计算ColBERT分数
colbert_score = bge_embeddings.colbert_score(
    colbert_embeddings["colbert_vecs"][0],
    colbert_embeddings["colbert_vecs"][1]
)

模型选择建议

多语言场景：优先考虑multilingual-e5-large-instruct或bge-m3
计算资源有限：使用HuggingFace端点服务
需要精确匹配：结合稀疏向量技术
复杂语义理解：使用ColBERT多向量方法

性能优化技巧

使用use_fp16=True加速计算(轻微精度损失)
根据实际文本长度调整max_length参数
合理设置batch_size以平衡内存使用和速度
对嵌入结果进行归一化(normalize_embeddings=True)

结语

HuggingFace提供的各种嵌入模型为LangChain应用开发提供了强大的文本表示能力。通过合理选择模型和优化技术，可以构建高效、准确的语义搜索和检索增强生成(RAG)系统。本文介绍的技术已在LangChain-KR项目中得到验证，能够有效处理中英韩混合文本场景。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考