DuckDB：在Apache Arrow上使用SQL

最新推荐文章于 2025-09-30 06:29:39 发布

原创

最新推荐文章于 2025-09-30 06:29:39 发布 · 629 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#apache #sql #人工智能 #arraow #DickDB #SQL

DuckDB可以查询多种不同类型的Apache Arrow对象。

Apache Arrow表

存储在本地变量中的Arrow表可以像DuckDB中的常规表一样被查询。

import duckdb
import pyarrow as pa

# 连接到内存数据库
con = duckdb.connect()

my_arrow_table = pa.Table.from_pydict({
   
   'i': [1, 2, 3, 4],
                                       'j': ["one", "two", "three", "four"]})

# 查询Apache Arrow表"my_arrow_table"并以Arrow表的形式返回结果
results = con.execute("SELECT * FROM my_arrow_table WHERE i = 2").arrow()

Apache Arrow数据集

存储为变量的Arrow数据集也可以像常规表一样被查询。
数据集对于指向Parquet文件目录以分析大型数据集非常有用。
DuckDB会将列选择和行过滤推送到数据集扫描操作中，以便只将必要的数据拉入内存。

import duckdb
import pyarrow as pa
import tempfile
import pathlib
import pyarrow.parquet as pq
import

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Whoisbug

关注关注

5
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

【Python高阶编程技术】第32篇内存格式革命：Apache Arrow、PyArrow、Plasma Shared Memory

08-09

1267

本文深入解析Apache Arrow技术如何通过列式内存格式实现跨语言零拷贝数据共享。首先对比传统行式存储的瓶颈，展示Arrow在"大宽表"场景的优势。接着剖析Arrow内存布局、共享机制（Plasma/Flight）及Substrait统一计算计划。通过3个实战案例：1）零拷贝ETL流水线使处理速度提升6倍；2）Plasma共享内存实现进程间毫秒级数据传输；3）Substrait计划驱动多引擎执行。文章还总结了常见陷阱及最佳实践，如避免数据复制、版本一致性管理等。最终指出掌握Arrow

基于 apache-arrow 的 duckdb rust 客户端

chashulaoshi的博客

07-29

495

基于 apache-arrow 的 duckdb rust 客户端目录基于 apache-arrow 的 duckdb rust 客户端背景libduckdb-sys基于 SQLite3 接口基于 C++ 接口基于 C 接口duckdb-rs小试牛刀通过 Apache Arrow 查询数据总结参考背景 duckdb 是一个 C++ 编写的单机版嵌入式分析型数据库。它刚开源的时候是对标 SQLite 的列存数据库，并提供与 SQLite 一样的易用性，编译成一个头文件和一个 cpp 文件就可以在程序中使用

参与评论您还未登录，请先登录后发表或查看评论

apache arrow mysql_伴鱼技术团队

weixin_31951239的博客

02-06

295

引言PingCAP 团队的论文《TiDB: A Raft-based HTAP Database》入选 VLDB 2020，这是对 TiDB 数据库阶段性成果的肯定，非常为国内数据库技术的快速发展而感到高兴。由于关于 TiDB 数据库在高可用、水平扩展和 ACID 事务的实现方案很久以前就已经公布出来了，对于这些主题大家都比较熟悉，所以就不再赘述了，下面主要谈谈论文中关于如何实现数据强一致性且资源...

使用 duckdb::arrow 实现表格输出的 DuckDB CLI 代码

l1t的专栏

07-08

396

摘要：通过在duckdb-rs主页发现支持Arrow表格的示例代码，将其提交给DeepSeek并删除语法高亮后，成功实现了能正确处理各种查询的DuckDB CLI工具。该工具支持两种模式：管道输入模式和交互模式，使用Arrow格式输出查询结果并显示执行时间。测试表明它能够正常处理数值查询、范围查询以及表创建/插入等操作，执行时间在毫秒级别。

极速响应：Apache Arrow Flight SQL如何重塑分布式数据查询

最新发布

gitblog_00423的博客

09-30

1122

你是否还在为分布式系统中的SQL查询延迟而烦恼？当数据分散在多个节点，传统查询往往需要漫长的等待。Apache Arrow Flight SQL（分布式SQL查询协议）的出现，正是为了解决这一痛点。读完本文，你将了解如何通过Flight SQL实现亚毫秒级数据传输，掌握多语言客户端的快速接入方法，并看到它在实际场景中的性能提升效果。 ## 什么是Apache Arrow Flight SQL？ ...

Apache Arrow DataFusion SQL操作符完全指南

gitblog_00837的博客

06-09

402

还在为DataFusion中复杂的SQL操作符而烦恼？本文将为你全面解析Apache Arrow DataFusion中的所有SQL操作符，从基础比较到高级位运算，助你彻底掌握查询引擎的核心操作能力。 ## 操作符概览 DataFusion支持丰富的SQL操作符，涵盖比较、算术、逻辑、位运算、字符串操作等多个类别。以下是完整的操作符分类表： | 类别 | 操作符 | SQL语法 | 描述 |...

duckdb和pyarrow读写arrow格式的方法

l1t的专栏

07-13

594

Arrow格式被广泛用于数据分析工具中。DuckDB从1.3版本后将Arrow插件从核心插件改为社区插件(现名nanoarrow)。实验表明：1) DuckDB生成的Arrow文件需先加载插件才能正确写入；2) PyArrow无法读取DuckDB生成的Arrow文件，但生成的Arrow文件能被DuckDB读取；3) PyArrow读写Arrow文件时数据结构会发生变化(Int64Array变为ChunkedArray)，而Feather格式则保持结构一致。这揭示了不同工具对Arrow格式的实现存在兼容性问题

Apache arrow 极致模块化、可组合的数据平台

天行健，地势坤

05-19

3550

Apache arrow 极致模块化、可组合的数据平台

23、Apache Arrow：赋能多元数据处理与应用

3a9bq4r8t2y的博客

09-08

本文深入探讨了Apache Arrow在多个领域的应用，包括Dremio Sonar查询引擎、机器学习工作流、浏览器数据处理等，展示了Arrow如何提升数据处理效率和性能。文章还介绍了Gandiva库的工作原理及其对数据分析的加速作用，以及Spice AI、Perspective和Falcon等基于Arrow构建的创新项目。最后，总结了Arrow在数据驱动时代的重要价值和发展前景。

最火数据库 DuckDB简介：数据分析的利器

四楼没电梯的专栏

05-28

2989

DuckDB是一款新兴的高性能嵌入式SQL数据库，专为在线分析处理(OLAP)设计，被誉为"分析型的SQLite"。它采用列式存储和向量化查询引擎，显著提升了数据分析查询性能，支持标准SQL语法和多种数据格式导入。与SQLite相比，DuckDB更擅长处理大规模数据集的聚合和复杂计算，但不适合事务密集型场景。DuckDB安装简单，能与Python、R等语言深度集成，是数据分析师、科学家处理交互式分析、边缘计算等任务的理想工具。虽然存在单机运行、非事务型等局限，但其优异的性能和易用性使其成

duckdb，单机高效处理海量数据

Python_Ai_Road的博客

08-03

3068

当我们用pandas处理百万级，千万级，乃至上亿行的数据时，缓慢的速度常常让我们痛苦不堪。这时候，不妨试试duckdb.duckdb在本地单机即可运行，性能非常高。它可以像spark那样使用sql语句进行数据分析和数据转换。当处理几千万行以上的数据时，它的效率通常是pandas的几十几百倍。公众号算法美食屋后台回复关键词：源码，获取本文notebook源代码。duckdb个库的用法非常简单，核心A...

Apache Arrow简介

记录并分享

09-02

1718

Apache Arrow是一个开源的跨平台数据层开发框架，主要提供高效的、硬件加速的、内存中数据计算的能力。Apache Arrow的设计初衷是作为“新一代大数据系统的共享基础”，可以作为不同系统之间进行高效数据交换的媒介，同时提供快速、低延迟的数据访问接口。Apache Arrow的主要目标是通过提供一个开放的标准，解决大数据领域常见的问题：大量的数据复制和序列化/反序列化操作所带来的性能问题，以及跨平台和跨语言环境下的数据兼容性问题。

性能为王：DuckDB架构与优化技巧全解析 | LeetTalk Daily

LinkTime_Cloud的博客

09-29

1904

“LeetTalk Daily”，每日科技前沿，由LeetTools AI精心筛选，为您带来最新鲜、最具洞察力的科技新闻。本报告旨在深入探讨DuckDB的架构及其性能分析。DuckDB是一种高效的内存SQL OLAP数据库管理系统，因其在数据分析中的卓越表现而受到广泛关注。本文将重点介绍DuckDB的核心特性，包括其对大数据集的高效处理能力、对远程文件的支持以及在地理空间数据处理中的潜力。此外，报...

DuckDB在Python中的基本使用

小龙在线

10-24

1378

DuckDB具有极强的单机数据分析性能表现，功能丰富，具有诸多拓展插件，且除了默认的SQL查询方式外，还非常友好地支持在Python、R、Java、Node.js等语言环境下使用，特别是在Python中使用非常的灵活方便。

如何给开源社区提交代码

Francis的博客

11-09

171

python中表格数据使用字典

HB15458755的博客

10-24

1349

表格非常重要，表格的应用十分广泛，所有的数据几乎都将可以用表格进行表示，定义表格 a1={"name":"zhangSan","age":19,"job":"programer"} a2={"name":"LiSI","age":19,"job":"programer"} a3={"name":"WangWu","age":19,"job":"programer"} tb={a1,a2,a3}...

为什么要对Apache Arrow使用Gandiva

科技博客的分析“工具人”

07-10

2674

凯利Stirman是战略与CMO的副总裁Dremio 。在过去的三年中， Apache Arrow在一系列不同的开源社区中Swift普及。仅在Python社区中，Arrow每月就被下载超过500,000次。 Arrow项目既是有关如何以高效方式表示数据以进行内存中分析的规范，又是一系列使用十几种语言的库，可用于Arrow列格式。与大多数汽车制造商OEM自己的变速器而不是自行设计...