从 Pandas 到 Polars 四十六：使用Polars读取和写入S3数据

原创

已于 2024-08-08 09:00:28 修改 · 1.4k 阅读

14 ·

CC 4.0 BY-SA版权

文章标签：

#pandas #python

于 2024-08-08 08:59:59 首次发布

在本文中，我们将看到如何使用Polars从S3中的CSV或Parquet文件读取和写入数据。同时，我们还将了解如何在下载前对S3上的文件进行过滤，以减少跨网络传输的数据量。

写入文件到S3

我们将创建一个包含3列的简单DataFrame。我们将使用s3fs库将其写入S3中的CSV和Parquet文件。s3fs库允许您以类似于在本地文件系统上工作的语法来读取和写入S3中的文件。

bucket_name = "my_bucket"
csv_key = "test_write.csv"
parquet_key = "test_write.parquet"
fs = s3fs.S3FileSystem()  
df = pl.DataFrame(
    {
        "foo": [1, 2, 3, 4, 5],
        "bar": [6, 7, 8, 9, 10],
        "ham": ["a", "b", "c", "d", "e"],
    }
)
with fs.open(f"{bucket_name}/{csv_key}", mode="wb") as f:
    df.write_csv(f)
with fs.open(f"{bucket_name}/{parquet_key}", mode="wb") as f:
    df.write_parquet(f)

如果你可以选择的话，我推荐使用Parquet格式，因为它具有更小的文件大小，可以保留数据类型（dtypes），并且使后续读取更快。

从S3读取文件

我们可以使用Polars的pl.read_csv函数从S3中读取文件。

df_csv = pl.read_csv(f"s3://{bucket}/{csv_key}")
df_parquet = pl.read_parquet(f"s3://{bucket}/{parquet_key}")

Polars内部使用ffspec将远程文件读取到内存缓冲区中，然后将缓冲区中的数据读入DataFrame。这是一种快速的方法，但它确实意味着整个文件都被读入内存。对于小文件来说这没问题，但对于大文件来说可能会很慢并且占用大量内存。

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

sosogod

关注关注

28
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

polars自学—官方文档：https://docs.pola.rs/user-guide/getting-started/

m0_59075153的博客

06-12

1444

polars自学记录：https://docs.pola.rs/user-guide/getting-started/

python中Polars库详解_python polars

m0_60721823的博客

04-11

1460

🍅 硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。🍅 技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。🍅 面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。🍅 知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。一个人可以走的很快，但一群人才能走的更远。

参与评论您还未登录，请先登录后发表或查看评论

read_csv中的col_types怎么用？一文搞懂数据类型解析难题

最新发布

FuncIsle的博客

11-28

385

轻松解决readr read_csv数据类型解析难题，准确指定col_types可避免自动推断错误。适用于读取混合类型列、日期格式混乱的CSV文件，通过手动定义列类型提升读取效率与准确性。掌握这一技巧，让数据导入更稳定可靠，值得收藏。

从 Pandas 到 Polars 四十三：处理大于内存限制的Parquet文件

sosogod的博客

08-01

1342

sink_parquet的一个很好的用例是将一个或多个大型CSV文件转换为Parquet格式，这样处理数据会更快。现在，Polars具有sink_parquet方法，这意味着您可以将流式查询的输出写入Parquet文件。在这个例子中，我们以惰性模式处理一个大型Parquet文件，并使用sink_parquet将输出写入另一个Parquet文件。需要注意的是，Polars的流式处理并非适用于所有操作，因此如果您的查询不支持流式处理，您可能会遇到内存溢出异常。path: (str) 输出文件的路径。

Python polars学习-01 读取与写入文件

DataShare

04-25

1853

在Python数据处理与分析中，大家在处理数据时，使用的基本都是Pandas，该库非常好用。随着 Rust 的出圈，基于其开发的Polars库，逐渐赢得大家的喜爱，在某些功能上更优于Pandas。于是小编在自学的过程中，逐步整理一些资料供大家参考学习，这些资料会分享到github仓库地址：https://github.com/DataShare-duo/polars_learnPS：为了学习Polars，小编先了解一遍 Rust，《Rust权威指南》

python读取s3文件数据

LLMUZI123456789的博客

03-20

1543

它允许用户通过命令行界面上传、下载、管理存储在S3上的文件和桶（bucket）。在S3中，用户可以存储和检索任意数量的数据，包括文件、图片、视频等任何类型的二进制数据或文本数据，并通过互联网进行访问。安全性：支持多种加密方式，如服务器端加密（SSE-S3, SSE-KMS, 或者客户提供的密钥），以及访问控制列表（ACL）和IAM策略来管理权限。易用性：提供了简单的Web界面和丰富的API接口，便于管理和操作存储桶及其中的对象。大规模存储：能够存储PB级的数据，并能处理极高的请求率。进行多部分上传大文件。

从 Pandas 到 Polars 三十五：使用Polars从数据库中加载数据

sosogod的博客

07-26

873

然而，当你从大型数据集中选择小部分数据时，数据库方法非常强大。在你的SQL语句中添加一个where子句来选择你的子集。然后，在你想要定义子集的列上创建一个索引。然后，你使用Polars和connectorx——这是Python中从数据库读取数据的最快方式。在某些项目中，挑战在于你拥有庞大的数据集，但在任何给定时刻只想查看数据集中定义明确的子集。在这种情况下，我们只在乘客编号列上创建索引，但你可以在多个列上创建更高级的索引。解决这一问题的强大方法是利用数据库和它们选择子数据的能力。

从 Pandas 到 Polars 三十七：在 AWS Lambda 环境中使用 Polars 来处理数据

sosogod的博客

07-27

1119

因为Polars现在内置了对在eager模式和lazy模式下从云存储（如AWS S3）读取和写入的支持，我们通常可以在处理程序函数中编写标准的Polars语法。在Docker中进行这种操作的一个好处是，你可以在将Lambda函数部署到AWS之前，在本地对它们进行测试。我在我的研讨会上提到了这一点，并且我也会在未来的博客文章中讨论它。在这个示例的shell脚本中，当运行容器时，我将我的.aws文件夹挂载到容器中的.aws文件夹。我将在下面详细解释这一点。在实际的生产查询中，我强烈建议你锁定你的依赖项的版本。

奔跑的蜗牛

08-05

1073

大家好，我是花姐。最近折腾数据处理的时候，发现了一个宝藏库——DuckDB，配合 Python 和 Pandas 简直不要太香！今天我就聊聊它到底有多好用，特别适合我们搞量化研究的同学。

千万级对账文件解析优化：CSV_Excel高效读取的7种性能加速技巧

结合多种优化技术，提出七类高效读取实践方法，涵盖流式解析、按需加载、并行分片、高性能库集成、数据类型优化、内存映射与增量解析等关键策略，并通过金融对账场景的真实案例验证其有效性。实验结

IO能力差距溯源：Pandas读写CSV_Excel成为核心竞争力的5大技术支撑

# 为什么数据读写能力让 Pandas 在数据科学生态中屹立不倒？在智能家居设备日益复杂的今天，确保无线连接的稳定性已成为一大设计挑战。不过，咱们今天不聊硬件——我们来聊聊一个看似“软绵绵”的问题：**为什么 `...

python中Polars库详解

m0_68678046的博客

04-22

4748

polars库详解

数据分析工具Polars实现CSV读写、排序、应用函数、lazy API

小龙在线

11-14

2293

polars使用rust实现，内部使用arrow列存储格式，支持并行数据处理，比pandas快，分两种模式eager和lazy。适合中、小型数据处理，大型数据建议用Spark。

探索Polars DataFrame进行数据加载与处理

fgayif的博客

03-23

381

Polars适合处理大规模数据，它能够快速读取文件并进行复杂的数据转换。结合Langchain的工具，可以将数据轻松转换为结构化文档，这对需要进一步处理的数据集或数据分析任务十分有帮助。如果遇到问题欢迎在评论区交流。

告别数据孤岛：Polars多格式数据导入导出全攻略

gitblog_00176的博客

09-18

958

数据处理的第一步往往是数据的导入导出，这一步看似简单，却常常耗费数据工程师大量时间。你是否曾因CSV文件编码问题头疼不已？是否在处理大型Parquet文件时遭遇内存溢出？是否需要在不同格式间频繁转换数据而效率低下？本文将系统讲解Polars（由Rust编写的多线程、向量化查询引擎驱动的数据帧技术）如何高效处理CSV、Parquet、JSON等多种数据格式，通过实例代码和性能对比，帮你掌握企业级数据...

Polars库常用用法

weixin_55252589的博客

01-05

1229

Polars是一个用Rust编写的高性能DataFrame库，在Python和R等语言中有接口。在处理大规模数据和复杂的数据处理任务时，Polars 通常具有更好的性能表现，包括更快的数据读取、处理速度和更高效的内存占用。但对于小型数据集和简单的数据操作，Pandas 的易用性和在数据分析领域的广泛应用也使得它仍然是一个不错的选择。可以通过设置参数来指定数据类型、分隔符、是否有表头等。明确指定文件有表头并且分隔符是逗号。

Polars简明基础教程十五：配置Polars库/环境

sosogod的博客

08-16

1497

但是，请注意，在程序开始执行之前设置环境变量通常是更常见的做法，因为某些库（包括Polars）可能在其初始化时读取环境变量，并在整个会话期间保持这些值不变。但是，请注意，直接修改环境变量可能会影响程序的其他部分，以及在同一环境中运行的其他程序。并且，我们可以在未来的会话中使用pl.Config.load_to_file来重新加载这些配置。以类似的方式，我们可以使用set_fmt_str_lengths来设置字符串中打印的字符数。例如，我们可以使用set_tbl_rows来设置打印在表格中的行数。

python-csv文件操作