Apache DataFusion 数据源使用指南：从本地文件到云存储-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_01026/article/details/148464486

Apache DataFusion 数据源使用指南：从本地文件到云存储

datafusion Apache DataFusion SQL Query Engine 项目地址: https://gitcode.com/gh_mirrors/datafu/datafusion

概述

Apache DataFusion 是一个高性能的分布式查询引擎，支持多种数据源接入方式。本文将详细介绍如何在 DataFusion 中使用不同类型的数据源，包括本地文件系统、远程文件以及各类云存储服务。

本地文件系统数据源

基本使用

DataFusion 可以直接查询本地文件系统中的文件，支持 CSV、Parquet、JSON、Avro 等多种格式。使用时只需将文件路径用单引号括起来即可：

SELECT * FROM 'data.csv';

目录查询

DataFusion 支持查询整个目录下的文件，前提是这些文件具有兼容的 schema：

SELECT * FROM 'data_dir/';

文件格式自动推断

DataFusion 能够自动推断常见文件格式的 schema，无需预先定义表结构。例如对于 CSV 文件，会自动识别列名和数据类型。

远程文件数据源

HTTP/HTTPS 文件

DataFusion 可以直接查询远程 HTTP/HTTPS 服务器上的文件：

SELECT count(*) FROM 'https://example.com/data.parquet';

云存储服务

DataFusion 支持多种云存储服务，包括 AWS S3、Google Cloud Storage、阿里云 OSS 和腾讯云 COS 等。

AWS S3 配置

使用 S3 数据源需要配置访问凭证：

CREATE EXTERNAL TABLE s3_data
STORED AS PARQUET
OPTIONS(
    'aws.access_key_id' 'YOUR_ACCESS_KEY',
    'aws.secret_access_key' 'YOUR_SECRET_KEY',
    'aws.region' 'us-east-1'
)
LOCATION 's3://bucket-name/path/to/file.parquet';

Google Cloud Storage 配置

CREATE EXTERNAL TABLE gcs_data
STORED AS PARQUET
OPTIONS(
    'gcp.service_account_path' '/path/to/service-account.json'
)
LOCATION 'gs://bucket-name/path/to/file.parquet';

创建外部表

基本语法

使用 CREATE EXTERNAL TABLE 命令可以创建持久化的外部表：

CREATE EXTERNAL TABLE my_table
STORED AS PARQUET  -- 或 CSV、JSON 等
LOCATION 'path/to/data';

显式定义 schema

可以显式定义表的 schema：

CREATE EXTERNAL TABLE test (
    id INT NOT NULL,
    name VARCHAR NOT NULL,
    value DOUBLE NOT NULL
)
STORED AS CSV
LOCATION 'data.csv';

文件格式详解

Parquet 格式

Parquet 是一种列式存储格式，DataFusion 会自动推断其 schema：

CREATE EXTERNAL TABLE parquet_data
STORED AS PARQUET
LOCATION 'data.parquet';

CSV 格式

CSV 文件支持多种配置选项：

CREATE EXTERNAL TABLE csv_data
STORED AS CSV
LOCATION 'data.csv'
OPTIONS (
    'has_header' 'true',
    'delimiter' ','
);

高级配置

分区数据

DataFusion 支持查询分区数据，可以指定通配符：

CREATE EXTERNAL TABLE partitioned_data
STORED AS PARQUET
LOCATION 's3://bucket/year=*/month=*/day=*/*.parquet';

压缩文件

DataFusion 支持直接查询压缩文件，如 gzip 压缩的 CSV：

CREATE EXTERNAL TABLE compressed_data
STORED AS CSV
LOCATION 'data.csv.gz'
OPTIONS ('compression' 'gzip');

最佳实践

性能优化：对于大型数据集，优先使用 Parquet 格式
安全建议：避免在 SQL 中硬编码凭证，使用环境变量
错误处理：检查文件权限和网络连接问题
数据验证：查询前确认文件格式和 schema 兼容性

常见问题解答

Q: 如何处理 schema 变更问题？ A: DataFusion 会尝试自动适应 schema 变更，但对于重大变更建议重建外部表

Q: 如何提高查询性能？ A: 使用分区数据、列式存储格式(如 Parquet)和适当的文件大小

Q: 是否支持流式数据源？ A: 当前版本主要支持批处理数据源，流式支持正在开发中

通过本文介绍，您应该已经掌握了在 Apache DataFusion 中使用各类数据源的方法。根据实际需求选择合适的数据源类型和配置方式，可以充分发挥 DataFusion 的查询性能优势。

datafusion Apache DataFusion SQL Query Engine 项目地址: https://gitcode.com/gh_mirrors/datafu/datafusion

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考