深入探索Ray数据集:创建、存储与多工具集成
1. 创建和保存Ray数据集
创建Ray数据集时,除了使用 ray.data.from_items 从本地集合创建外,Ray还支持多种方式。Ray借助Apache Arrow来加载外部数据到数据集中,这些数据集支持多种文件格式和文件系统,当前支持的格式有CSV、JSON、Parquet、NumPy、文本和原始二进制。
1.1 Apache Arrow的关键组件
- 丰富的数据类型集 :涵盖SQL和JSON类型,如int、BigInt、decimal、varchar、map、struct和array。
- 列式内存表示 :允许基于定义的数据类型构建任意复杂的记录结构。
- 数据结构支持 :包括选择列表(类似枚举)、哈希表和队列。
- 进程间数据交换 :使用共享内存、TCP/IP和远程直接内存访问(RDMA)。
- 数据读写库 :支持Java、C++、Python、Ruby、Rust、Go和JavaScript等多种语言。
- 多种操作算法 :如图位图选择、哈希、过滤、分桶、排序和匹配。
- 内存使用优化 :通过列式内存压缩提高效率。
- 内存持久化工具 :通
超级会员免费看
订阅专栏 解锁全文
17

被折叠的 条评论
为什么被折叠?



