全新大模型框架Haystack，搭建RAG pipeline

最新推荐文章于 2025-10-10 13:15:26 发布

原创

最新推荐文章于 2025-10-10 13:15:26 发布 · 4.7k 阅读

38 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #python

大家好，在AI应用开发的赛道上，目前Haystack以其开源框架的优势，成为LLM技术领域的一匹黑马，对现有竞争者构成挑战。本文将介绍Haystack的亮点优势，并分析它为何能在众多LLM框架中脱颖而出，通过RAG应用实例来展示Haystack的实际应用能力。

1.Haystack简介

Haystack是一个强大的工具包，帮助开发者用少量代码创建AI应用，尤其擅长处理大量文本或文档；能够简化开发实用LLM应用的过程。简单来说，Haystack就像一套多功能的积木，可以灵活组合，可以搭建出各式各样的AI系统。

使用Haystack，能够实现多种应用场景，例如：

基于大量文档回答问题的聊天机器人
能够从众多文档中查找和提取特定信息的系统
能够理解和处理文本、图像和其他类型数据的应用

在Python 3.10环境下，可以通过以下命令安装Haystack：

pip install haystack-ai

2.Haystack工作原理

Haystack的运作依赖于两个核心概念：

组件：可以视为独立的工具，每个工具都承担着特定的任务。比如，某个组件可能专门用来检索相关文档，而另一个则负责生成文本回答。
管道：决定了组件之间的连接方式。通过管道，我们定义了组件的工作顺序以及它们之间信息的传递路径。

利用这些组件的不同组合，开发者能够构建出处理复杂任务的AI系统。

3.Haystack核心优势

灵活性：可以与许多不同的AI模型（如OpenAI、HuggingFace等）和数据存储系统（如ChromaDB、Pinecone，甚至是Neo4j）无缝协作。
易用性：即使不精通AI的复杂技术细节，开发者也能轻松上手Haystack。
可定制性：开发者可以根据特定需求，创建或调整组件。Haystack采用Pydantic结构，定制过程更加简便。
应用多样性：支持构建不同类型的AI系统，从问答到信息提取。

4.构建RAG管道

安装好Haystack之后，接下来只需安装trafilatura和lxml，这两个工具用于提取HTML文档：

pip install trafilatura lxml_html_clean

这里将构建两个管道：一个负责文档的清洗与处理，另一个则用于实现RAG功能。

导入相关包：

import urllib.request
from haystack import Pipeline
from haystack.document_stores.in_memory import InMemoryDocumentStore
from haystack.components.retrievers import InMemoryEmbeddingRetriever
from haystack.components.converters import HTMLToDocument
from haystack.components.preprocessors import DocumentCleaner, DocumentSplitter
from haystack.components.embedders import OpenAIDocumentEmbedder, OpenAITextEmbedder
from hayst