数据保存为Feather 和 Parquet格式

原创

已于 2025-03-05 13:41:03 修改 · 947 阅读

·

14

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

于 2025-03-04 19:58:40 首次发布

关于Feather 和 Parquet 的保存与读取，包括如何只读取数据的一部分，大大减少读取数据时间，代码放在文章后半部分~

Feather 和 Parquet 都是用于存储和处理数据的文件格式，在数据科学和大数据领域应用广泛，以下是关于它们的详细介绍：

定义与背景

Feather：是一种轻量级的、基于 Apache Arrow 的列式存储格式，主要用于在不同的数据分析工具和语言之间快速高效地交换数据。它旨在提供一种简单、快速且跨平台的数据存储方式，使得数据可以在 Python、R 等多种语言和相关的数据处理框架之间轻松传递。
Parquet：是一种面向列的存储格式，最初是为了 Hadoop 生态系统而开发的，旨在高效地存储和处理大规模的数据分析工作负载。它被设计用于支持复杂的嵌套数据结构，并能与多种大数据处理框架（如 Hive、Spark 等）良好集成。

特点

Feather
- 快速读写：利用 Apache Arrow 的内存格式，能实现快速的数据读写操作，尤其在处理中等规模数据时性能表现出色。
- 语言兼容性：支持多种编程语言，如 Python、R 等，方便不同语言环境下的数据共享和交互。
- 简单易用：提供了简洁的 API，使用户可以轻松地进行数据的存储和加载操作。
- 内存映射：支持内存映射文件，允许数据在不加载到内存的情况下进行访问，减少了内存占用，提高了数据处理效率。
Parquet
- 高效压缩：采用了多种先进的压缩算法，如 Snappy、Gzip 等，能够有效地减少数据存储空间，降低

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。