如何使用LangChain加载CSV文件

最新推荐文章于 2025-11-27 17:11:16 发布

原创最新推荐文章于 2025-11-27 17:11:16 发布 · 343 阅读

CC 4.0 BY-SA版权

文章标签：

在数据处理中，CSV（逗号分隔值）文件是一种常用的格式。每行包含一个数据记录，而记录由一个或多个字段组成，字段之间使用逗号分隔。LangChain提供了一种CSV Loader，可以将CSV文件导入成多个Document对象，其中CSV文件的每一行都会被转换为一个文档。

核心原理解析

LangChain的CSV Loader主要利用Python的csv.DictReader来解析CSV数据，并将每一行转化为Document的格式。它还支持定制解析方式，例如可以设置分隔符、引号字符等。

代码实现演示

以下是如何使用LangChain的CSV Loader加载CSV文件的示例代码：

from langchain_community.document_loaders.csv_loader import CSVLoader

# 文件路径配置，可以替换为自己的CSV文件路径
file_path = "../../../docs/integrations/document_loaders/example_data/mlb_teams_2012.csv"

# 初始化CSV Loader
loader = CSVLoader(file_path=file_path)

# 加载数据
data = loader.load()

# 输出前两个记录
for record in data[:2]:
    print(record)

此示例将CSV文件的每一行转化为一个Document对象，并输出前两个记录。

自定义CSV解析和加载

我们可以通过csv_args参数来定制CSV解析，支持更改分隔符、引号字符和字段名称：

loader = CSVLoader(
    file_path=file_path,
    csv_args={
        "delimiter": ",",
        "quotechar": '"',
        "fieldnames": ["MLB Team", "Payroll in millions", "Wins"],
    },
)

data = loader.load()
for record in data[:2]:
    print(record)

设置文档来源列

可以使用CSV中的某一列作为文档的source，这对于后续的文档链处理是非常有帮助的：

loader = CSVLoader(file_path=file_path, source_column="Team")

data = loader.load()
for record in data[:2]:
    print(record)

从字符串加载

在处理CSV格式字符串时，可以借助Python的tempfile生成临时文件：

import tempfile
from io import StringIO

string_data = """
"Team", "Payroll (millions)", "Wins"
"Nationals",     81.34, 98
"Reds",          82.20, 97
"Yankees",      197.96, 95
"Giants",       117.62, 94
""".strip()

with tempfile.NamedTemporaryFile(delete=False, mode="w+") as temp_file:
    temp_file.write(string_data)
    temp_file_path = temp_file.name

loader = CSVLoader(file_path=temp_file_path)
data = loader.load()
for record in data[:2]:
    print(record)