13、Ray Datasets：创建、保存与多工具集成使用指南

Ray Datasets创建、保存与多工具集成指南

最新推荐文章于 2025-09-28 10:53:38 发布

香菜滚出地球

最新推荐文章于 2025-09-28 10:53:38 发布

阅读量79

点赞数

CC 4.0 BY-SA版权

分类专栏：用Ray扩展Python：分布式计算与机器学习的新时代文章标签： Ray Datasets Apache Arrow Dask

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/smartcontract5/article/details/149640461

用Ray扩展Python：分布式计算与机器学习的新时代专栏收录该内容

20 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

Ray Datasets：创建、保存与多工具集成使用指南

1. 创建和保存Ray数据集

可以通过调用 ray.data.from_items 从本地集合创建数据集，但本地集合会限制可处理的数据范围，Ray还支持其他多种方式。

1.1 Apache Arrow

Apache Arrow定义了一种独立于语言的列式内存格式，用于处理扁平数据和分层数据。其关键组件包括：
- 丰富的数据类型集，涵盖SQL和JSON类型，如int、BigInt、decimal、varchar、map、struct和array。
- 列式内存表示，支持基于定义的数据类型构建任意复杂的记录结构。
- 支持多种数据结构，如选择列表（类似枚举）、哈希表和队列。
- 使用共享内存、TCP/IP和远程直接内存访问（RDMA）进行进程间数据交换。
- 数据库，用于以多种语言（包括Java、C++、Python、Ruby、Rust、Go和JavaScript）读写列式数据。
- 各种操作的算法，如位图选择、哈希、过滤、分桶、排序和匹配。
- 通过列式内存压缩提高内存使用效率。
- 内存持久化工具，可通过非易失性内存、SSD或HDD实现短期持久化。

Ray使用Arrow将外部数据加载到数据集中，这些数据集支持多种文件格式和文件系统，目前支持的格式有CSV、JSON、Parquet、NumPy、文本和原始二进制。加载数据的函数遵循 read_[format] 模式，位于 ray.data 模块中，示例如下：

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。