13、Ray Datasets：高效数据处理与机器学习应用

最新推荐文章于 2025-09-19 14:49:50 发布

m0n1o2p

最新推荐文章于 2025-09-19 14:49:50 发布

阅读量81

点赞数

CC 4.0 BY-SA版权

分类专栏：掌握Ray：分布式AI新范式文章标签： Ray Datasets 数据处理机器学习

本文链接：https://blog.youkuaiyun.com/m0n1o2p/article/details/151106884

掌握Ray：分布式AI新范式专栏收录该内容

22 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

Ray Datasets：高效数据处理与机器学习应用

1. 引言

在数据处理和机器学习领域，高效地处理大规模数据是一项关键挑战。Ray Datasets 提供了强大的功能，能够帮助我们更高效地处理结构化数据，进行复杂的计算和分布式训练。本文将详细介绍 Ray Datasets 的基本使用、计算方法、数据集管道以及与外部库的集成等内容。

2. 创建带模式的数据集

创建带模式的数据集最简单的方法是从 Python 字典列表创建：

import ray

ds = ray.data.from_items([{"id": "abc", "value": 1}, {"id": "def", "value": 2}])
print(ds.schema())  # -> id: string, value: int64

在这个例子中，模式是从传入的字典键中推断出来的。我们还可以在 Ray Datasets 和流行库（如 Pandas）的数据类型之间进行转换：

pandas_df = ds.to_pandas()  # pandas_df 将继承数据集的模式

3. 在 Ray Datasets 上进行计算

Ray Datasets 内置了一些功能，如过滤、排序和创建联合。其中最强大的部分之一是它允许我们利用 Ray 的灵活计算模型，对大量数据进行高效计算。

3.1 使用 .map() 进行自定义转换 </

订阅专栏解锁全文

会员秒杀 ¥9.9 重磅福利

超级会员免费看

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

m0n1o2p

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

订阅专栏

Ray Data 内部架构深度解析

maxcode

02-27

447

Ray Data 是一个基于 Ray 核心的分布式数据处理框架，它提供了一个高层次的 Python API，用于加载、转换和处理大规模数据集。本文将深入探讨 Ray Data 的内部架构、执行机制、调度策略和内存管理等方面，帮助读者更好地理解和使用 Ray Data。

ray dataset与spark2.x dataframe数据之间转换

littlely_ll的博客

04-19

543

今天写一个比较常用的数据转换操作——与spark之间的数据转换。ray中已经有读取和写入spark的接口，不过它只支持spark3.x，不支持spark2.x的版本，因此我根据源码修改了部分内容以适应spark2.x dataframe与ray dataset之间的转换。ray分布式计算框架可以读取许多类型的文件，比如。等，也可以从不同的系统中读取数据，比如。

参与评论您还未登录，请先登录后发表或查看评论

Medical X-rays Dataset汇总（长期更新）

K.SHI的博客

04-18

1530

公开医学X-rays数据集汇总

Creation and validation of a chest X-ray dataset with eye-tracking and report dictation for AI devel

qq_42459314的博客

12-09

746

在这项工作中，我们使用公开可用的MIMIC-CXR数据库和公开可用的MIMIC-IV临床数据库的急诊科（ED）子集。MIMIC-IV-ED子集包含与MIMIC-CXR数据库中的一些CXR检查相关的临床观察数据和结果。纳入和排除标准应用于MIMIC-CXR临床数据库中记录的患者属性和临床结果1083例，涵盖3种疾病情况：正常、肺炎和充血性心力衰竭（CHF）。5. 音频片段：包含每个双标识符的听写音频掩码（即mp3、wav）、文本掩码（即json）、分割掩码（即png）的文件夹。转录的放射学报告文本，

14、Ray Datasets：高效数据处理与机器学习训练的利器

app77的博客

09-19

Ray Datasets 是 Ray 生态系统中用于高效数据处理和机器学习训练的核心工具，支持大规模数据的读取、转换与分布式处理。它提供丰富的内置操作如过滤、排序、聚合，并支持 CSV、JSON、Parquet 等多种格式的本地与远程存储读写。通过数据集管道实现多阶段重叠执行，提升处理吞吐量；结合 Ray Train 和 Tune 可实现高效的模型训练扩展。博文详细介绍了其基本用法、自定义转换、分布式训练中的数据分片策略及性能优化建议，展示了其在并行训练分类器等场景中的强大能力。

13、Ray Datasets：创建、保存与多工具集成使用指南

smartcontract5的博客

07-18

本文详细介绍了如何创建和保存Ray数据集，并探讨了其与Apache Arrow、Dask、Spark等工具的集成使用。内容涵盖数据加载与保存、分区策略、索引设置、洗牌操作、滚动窗口、聚合方法等关键数据处理环节。同时，文章提供了实用的操作建议和优化策略，旨在帮助开发者更高效地使用Ray Datasets进行大规模数据处理。

Compute Strategy in Ray Dataset

knightjt的博客

02-20

407

ray.data中的并行执行策略

RayDatasets：高效数据处理与机器学习应用

### Ray Datasets：高效数据处理与机器学习应用 #### 1. 创建带模式的数据集创建带模式的数据集最简单的方法是从Python字典列表创建。以下是示例代码： ```python ds = ray.data.from_items([{"id": "abc", "value...

3、Ray数据科学库与生态系统全面解析

app77的博客

09-08

本文全面解析了Ray在数据科学与机器学习领域的核心库及其生态系统，涵盖Ray Datasets高效数据处理、Ray RLlib和Ray Train的分布式模型训练、Ray Tune的超参数优化以及Ray Serve的模型部署服务。文章详细介绍了各组件的功能特点、使用示例与最佳实践，并展示了其与Spark、Dask、Pandas等工具的深度集成能力，构建了从数据预处理到模型上线的完整工作流，为数据科学家提供了高性能、易扩展的一站式解决方案。

Ray项目中的数据加载与预处理最佳实践指南

gitblog_01132的博客

06-01

352

Ray项目中的数据加载与预处理最佳实践指南【免费下载链接】ray ray-project/ray: 是一个分布式计算框架，它没有使用数据库。适合用于大规模数据处理和机器学习任务的开发和实现，特别是对于需要使用分布式计算框架的场景。特点是分布式计算框架、无数据库。 ...

Ray 源码分析系列(13)—RayData

weixin_43956669的博客

01-08

2964

Ray Data 是一个适用于机器学习工作负载的可扩展数据处理库。它提供了灵活且高性能的应用程序编程接口（APIs），可用于扩展离线批量推理、数据预处理以及为机器学习训练导入数据。Ray Data 采用流式执行方式，能够高效处理大规模数据集。

基于 Ray 的大规模离线推理

字节跳动云原生计算官方账号

06-08

2890

大模型离线推理大模型离线推理（Batch 推理）是指在具有数十亿至数千亿参数的大规模模型上进行分布式计算推理的过程，具有如下特点：一次对一批数据进行推理，数据量通常是海量的，所以计算过程通常是离线计算；推理作业执行过程一般同时包含数据处理及模型推理；作业规模通常较大，采用分布式计算，消耗大量计算资源；相比于在线推理，离线推理对延迟的要求并不高，主要关注吞吐和资源利用率。Ray 简介。

Ray 学习资料汇总 - 分布式计算框架助力机器学习扩展

helloaiworld的博客

09-20

1131

通过以上学习资源,读者可以全面掌握Ray的核心概念和应用方法,将其应用到实际项目中去。Ray是一个强大的分布式计算框架,可以帮助开发者将Python和机器学习工作负载从笔记本电脑扩展到集群。本文整理了Ray的各类学习资源,为读者提供一个全面的Ray学习指南。文章链接：www.dongaigc.com/a/ray-resource-summary-distributed-computing。- 学习使用Ray State API和Ray Dashboard UI监控Ray集群和应用。

Ray分布式机器学习-Raydp(与Spark集成)

黑眼圈@~@从不出水文

08-25

2774

参考：官网文档 Ray与SparkDF集成 Ray的数据集加载介绍: Ray Datasets are the standard way to load and exchange data in Ray libraries and applications. Datasets provide basic distributed data transformations such asmap,filter, andrepartition, and are compatible with a var...

RayRTC：大规模分布式计算学习引擎 Ray 在字节跳动 NLP 场景下的实践

字节跳动技术团队官方博客

06-01

3372

动手点关注干货不迷路????Jialin Liu, Mengyuan Chao, Jian Li, Wei Peng, Sixiang Ma, Wei Xu, Run Yang, Xin ChenRayRTC 是字节基础架构组与字节 AML 组共同合作，在内部 RTC（Realtime Text Classification）文本训练平台上基于 Ray 进行的下一代 Ser...

五次多项式换道转向避撞轨迹规划可视化Matlab代码（分析不同车速与路面附着系数对换道时间、距离及横向加速度的影响）