Apache Arrow DataFusion Python 绑定教程-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00201/article/details/141879965

Apache Arrow DataFusion Python 绑定教程

arrow-datafusion-pythonApache Arrow DataFusion Python Bindings项目地址:https://gitcode.com/gh_mirrors/ar/arrow-datafusion-python

项目介绍

Apache Arrow DataFusion 是一个基于 Apache Arrow 的内存查询引擎。DataFusion Python 绑定允许用户在 Python 环境中使用 DataFusion 的强大功能，包括 SQL 查询和 DataFrame API。DataFusion 是用 Rust 编写的，提供了高性能和线程安全保证。

项目快速启动

以下是一个简单的快速启动示例，展示如何在 Python 中使用 DataFusion。

安装

首先，通过 pip 安装 DataFusion：

pip install datafusion

示例代码

以下是一个简单的示例，展示如何使用 DataFusion 进行 SQL 查询：

import datafusion

# 创建 DataFusion 上下文
ctx = datafusion.SessionContext()

# 注册 CSV 文件
ctx.register_csv('my_table', 'path/to/my_table.csv')

# 执行 SQL 查询
df = ctx.sql('SELECT * FROM my_table')

# 显示结果
result = df.collect()
print(result)