LangChain技术解析：使用HyDE提升文档索引效果

最新推荐文章于 2025-06-17 15:25:14 发布

滑辰煦Marc

最新推荐文章于 2025-06-17 15:25:14 发布

阅读量379

点赞数 5

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/gitblog_00097/article/details/148323036

LangChain技术解析：使用HyDE提升文档索引效果

langchain LangChain是一个由大型语言模型 (LLM) 驱动的应用程序开发框架。。源项目地址：https://github.com/langchain-ai/langchain 项目地址: https://gitcode.com/gh_mirrors/la/langchain

什么是HyDE？

HyDE（Hypothetical Document Embeddings，假设性文档嵌入）是一种创新的嵌入技术，它通过生成假设性文档来改进查询的嵌入表示。这项技术最初在2022年的一篇研究论文中被提出，其核心思想是：当用户提出查询时，系统首先生成一个假设性的回答文档，然后对这个生成的文档进行嵌入，最终使用这个嵌入表示来进行相似性搜索。

与传统嵌入方法相比，HyDE具有几个显著优势：

能够捕捉查询背后的意图而不仅仅是表面文字
生成的假设文档可以包含更丰富的上下文信息
特别适合处理简短或模糊的查询

在LangChain中实现HyDE

在LangChain框架中，我们可以方便地使用HypotheticalDocumentEmbedder类来实现这一技术。下面我们详细介绍具体实现步骤。

基础环境准备

首先需要准备两个核心组件：

基础嵌入模型（如OpenAI的嵌入模型）
用于生成假设文档的LLM（大语言模型）

from langchain.chains import HypotheticalDocumentEmbedder, LLMChain
from langchain.prompts import PromptTemplate
from langchain_openai import OpenAI, OpenAIEmbeddings

# 初始化基础嵌入模型和LLM
base_embeddings = OpenAIEmbeddings()
llm = OpenAI()

使用预设提示模板

LangChain提供了一些预设的提示模板，如"web_search"，可以直接使用：

# 使用web_search提示模板初始化HyDE
embeddings = HypotheticalDocumentEmbedder.from_llm(llm, base_embeddings, "web_search")

# 使用HyDE进行查询嵌入
result = embeddings.embed_query("泰姬陵在哪里？")

多文档生成增强

为了提高嵌入质量，我们可以让LLM生成多个假设文档，然后综合它们的嵌入表示：

# 配置LLM生成多个响应
multi_llm = OpenAI(n=4, best_of=4)

# 使用多文档生成的HyDE
embeddings = HypotheticalDocumentEmbedder.from_llm(
    multi_llm, base_embeddings, "web_search"
)

# 嵌入查询
result = embeddings.embed_query("泰姬陵在哪里？")

默认情况下，系统会取多个文档嵌入的平均值作为最终表示。

自定义提示模板

对于特定领域的应用，自定义提示模板可以显著提高效果。例如，针对国情咨文内容的查询：

# 自定义提示模板
prompt_template = """请回答用户关于最近国情咨文的问题
问题: {question}
回答:"""
prompt = PromptTemplate(input_variables=["question"], template=prompt_template)
llm_chain = LLMChain(llm=llm, prompt=prompt)

# 使用自定义提示的HyDE
embeddings = HypotheticalDocumentEmbedder(
    llm_chain=llm_chain, base_embeddings=base_embeddings
)

# 嵌入特定领域的查询
result = embeddings.embed_query(
    "总统对Ketanji Brown Jackson说了什么"
)

实际应用示例

让我们看一个完整的应用示例，使用HyDE进行文档检索：

from langchain_chroma import Chroma
from langchain_text_splitters import CharacterTextSplitter

# 加载并分割文档
with open("state_of_the_union.txt") as f:
    state_of_the_union = f.read()
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
texts = text_splitter.split_text(state_of_the_union)

# 使用HyDE创建向量存储
docsearch = Chroma.from_texts(texts, embeddings)

# 执行相似性搜索
query = "总统对Ketanji Brown Jackson说了什么"
docs = docsearch.similarity_search(query)

# 输出最相关的结果
print(docs[0].page_content)