Spring AI-67.ETL 管道
ETL 管道
ETL(提取、转换、加载)框架是检索增强生成(RAG)用例中数据处理的核心。ETL 管道协调从原始数据源到结构化向量存储的流程,确保数据以最佳格式供 AI 模型检索。RAG 用例通过从数据主体中检索相关信息来增强生成模型的能力,从而提高生成输出的质量和相关性。
API 概述
ETL 管道创建、转换和存储 Document
实例。
Document 类包含文本、元数据,可选包含图像、音频和视频等多媒体类型。
Content
:主要文本内容及可选元数据。Media
:多媒体输入,包含 MIME 类型和原始数据或 URL。
ETL 管道包含三个主要组件:
- DocumentReader:实现
Supplier<List<Document>>
,从不同来源读取文档。 - DocumentTransformer:实现
Function<List<Documen