[掌握DuckDB: 用于SQL OLAP的强大工具]_duckdb 读取数据可以做分页么-优快云博客

本文链接：https://blog.youkuaiyun.com/ahrghweaHT/article/details/144327974

# 引言
在现代数据分析中，处理结构化数据的需求日益增长。DuckDB作为一款高效的嵌入式SQL OLAP数据库管理系统，受到了越来越多的关注。本文旨在介绍如何使用DuckDB和LangChain生态系统中的`DuckDBLoader`来加载和处理CSV数据，并展示如何通过Python代码示例实现这一过程。

# 主要内容

## 什么是DuckDB？
DuckDB是一种轻量、嵌入式的SQL分析处理工具，旨在为数据科学和分析提供高效的解决方案。它不需要复杂的数据库设置，可以在本地环境中快速处理大规模数据。

## 安装DuckDB
首先，我们需要确保安装了DuckDB。可以通过Python的pip包管理工具来实现：

```bash
%pip install --upgrade --quiet duckdb

使用DuckDB加载CSV数据

在使用DuckDB时，LangChain的DuckDBLoader可以帮助我们将CSV文件加载为可处理的文档格式。

from langchain_community.document_loaders import DuckDBLoader

# 编写示例CSV文件
%%file example.csv
Team,Payroll
Nationals,81.34
Reds,82.20

# 加载CSV数据
loader = DuckDBLoader("SELECT * FROM read_csv_auto('example.csv')")

data = loader.load()

print(data)
# 输出:
# [Document(page_content='Team: Nationals\nPayroll: 81.34', metadata={}),
# Document(page_content='Team: Reds\nPayroll: 82.2', metadata={})]

指定内容和元数据列

我们可以通过page_content_columns和metadata_columns参数指定CSV中的哪些列作为文档内容，哪些作为元数据。

loader = DuckDBLoader(
    "SELECT * FROM read_csv_auto('example.csv')",
    page_content_columns=["Team"],
    metadata_columns=["Payroll"],
)

data = loader.load()

print(data)
# 输出:
# [Document(page_content='Team: Nationals', metadata={'Payroll': 81.34}),
# Document(page_content='Team: Reds', metadata={'Payroll': 82.2})]

添加源信息到元数据

还可以将源信息直接添加到加载的文档元数据中，以便于跟踪来源。

loader = DuckDBLoader(
    "SELECT Team, Payroll, Team As source FROM read_csv_auto('example.csv')",
    metadata_columns=["source"],
)

data = loader.load()

print(data)
# 输出:
# [Document(page_content='Team: Nationals\nPayroll: 81.34\nsource: Nationals', metadata={'source': 'Nationals'}),
# Document(page_content='Team: Reds\nPayroll: 82.2\nsource: Reds', metadata={'source': 'Reds'})]