Ray 源码分析系列(10)—stats

最新推荐文章于 2025-05-31 15:22:14 发布

Jim.Li

最新推荐文章于 2025-05-31 15:22:14 发布

阅读量2.3k

点赞数 45

分类专栏： AI Infra 文章标签： c++ ai 分布式人工智能

本文链接：https://blog.youkuaiyun.com/weixin_43956669/article/details/144923302

版权

Overview

src/ray/stats下面包含了所有要采集的指标，这些指标都是以opencensus proto 的格式进行存放，在可视化工具里面用promethus和grafana进行展示。

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Jim.Li

关注关注

45
点赞
踩
23

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

x264源码分析与应用示例（二）——码率控制

张晖的专栏

02-25

7773

打算写几篇文章记录一下学习x264源码的成果，主要包含两个方面的内容，一是基本的x264视频编码流程，二是x264中的码率控制，之前分析过JM和HM的码率控制，但是x264的码率控制一直没看，这回也算是补上了。然后再以两个实际问题为例介绍通过研究源码后给出的解决方案，一个是如何修改编码参数获得更好的视频质量的问题，一个是修改源码改进x264码率控制算法的问题。本文包含以下内容 1、x264...

x264 参考帧管理源码分析

世界那么大，我想去看看～

05-30

360

x264 参考帧管理源码分析

参与评论您还未登录，请先登录后发表或查看评论

Ray 源码分析系列(2)—编译

weixin_43956669的博客

12-28

861

Ray能被OpenAI、微信、字节等大厂采用，必定有其独特优势，这个系列的文章将会深入分析Ray的绝大部分核心代码。

Ray 源码分析系列(13)—RayData

weixin_43956669的博客

01-08

2566

Ray Data 是一个适用于机器学习工作负载的可扩展数据处理库。它提供了灵活且高性能的应用程序编程接口（APIs），可用于扩展离线批量推理、数据预处理以及为机器学习训练导入数据。Ray Data 采用流式执行方式，能够高效处理大规模数据集。

Ray 源码分析系列(3)—GCS

weixin_43956669的博客

12-29

1297

认真看过ray的论文就会知道，并不是所有的task或者actor都会先发送到gcs中。当worker节点有足够的资源能够完成提交graph的执行的时候，local scheduler是不会也不需要借助gcs来完成跨节点计算的，这样的设计不得不说真的是太赞了。因为，大部分调度框架是不感知真实负载的，纯纯的就是一个资源分发器。这篇文章详细地分析了gcs的核心代码实现，如果你能看到这里，别忘了一键三联，Enjoy!

解析分布式应用框架Ray架构源码

华为云官方博客

03-15

2710

摘要：Ray的定位是分布式应用框架，主要目标是使能分布式应用的开发和运行。 Ray是UC Berkeley大学 RISE lab（前AMP lab） 2017年12月开源的新一代分布式应用框架（刚发布的时候定位是高性能分布式计算框架，20年中修改定位为分布式应用框架），通过一套引擎解决复杂场景问题，通过动态计算及状态共享提高效率，实现研发、运行时、容灾一体化 Ray架构解析业务目标 Ray的定位是分布式应用框架，主要目标是使能分布式应用的开发和运行。业务场景具体的粗粒度使用场景包括弹

Ray 源码分析系列(5)—Raylet

weixin_43956669的博客

12-31

1216

写到这里真不容易，窗外已经太阳高高照，但基本把raylet的整个脉络给理清楚，还挺舒服。不得不说里面很多的实现都非常solid。如果你也看到了这里，别忘了一键三连呀，Enjoy!

h264源码分析［1］

minger1202的专栏

10-20

3070

代码结构图： Figure 1. x264函数调用图 x264命令行入口函数main()int main( int argc, char **argv ) { x264_param_t param; cli_opt_t opt = {0}; int ret = 0; FAIL_IF_ERROR( x264_threading_init(), "unable

x264 命令行工具源码分析

世界那么大，我想去看看～

06-04

158

x264 命令行工具源码分析

C++030（内联函数）

weixin_46669997的博客

05-28

699

通过inline关键字可以把函数定义为内联函数，编译器会在每个调用该函数的地方展开一个函数的副本。

C++ 并发编程入门：std::atomic 原子变量详解

汽车电子软件领域知识分享

05-28

890

本文详解了C++中的std::atomic原子变量在多线程编程中的关键作用。通过计数器案例展示了普通变量在多线程环境下的数据竞争问题，并对比了使用原子变量后的正确结果。文章介绍了原子变量的核心特性、基本用法、支持的操作类型及其性能优势，并对比了不同内存顺序选项的安全性和效率。同时指出了使用原子变量的常见陷阱，如复合操作仍需锁保护、运算符重载误用等问题。最后总结了原子变量的适用场景和局限性，强调其作为无锁线程安全方案的价值，但也指出复杂逻辑仍需依赖互斥锁。

电子电路：什么是C类放大器？

shunzi2016的博客

05-28

623

C类放大器是专为射频/高频设计的高效率非线性放大器。其核心通过将晶体管偏置于截止区以下实现：仅当输入信号超过阈值时瞬时导通（导通角<180°），输出为窄脉冲。依赖输出端LC谐振回路滤除谐波，恢复正弦波并选频放大。突出优势是理论效率近80%，实际可达90%，因晶体管大部分时间截止；结构简单，适合大功率射频场景（如发射机、基站）。关键局限：固有高失真需谐振回路补偿；仅适用于窄带恒定载波（如FM广播），不兼容音频等宽带信号。应用定位：在容忍失真的高频功率放大领域不可替代，但需严格匹配调谐电路参数。

华为OD机试真题——阿里巴巴找黄金宝箱(III)（2025A卷：100分）Java/python/JavaScript/C/C++/GO最佳实现

专注分享技术、实用优质教程、资源

05-29

1775

华为OD机试真题——阿里巴巴找黄金宝箱(III)（2025A卷：100分）Java/python/JavaScript/C/C++/GO最佳实现

C++：设计模式--工厂模式

05-27

1601

抽象工厂模式可以向客户端提供一个接口，使得客户端在不必指定产品的具体类型的情况下，能够创建多个产品族的产品对象。核心工厂类不再负责产品的创建，这样核心类成为一个抽象工厂角色，仅负责具体工厂子类必须实现的接口，通过专门定义一个类来负责创建其他类的实例，被创建的实例通常都具有共同的父类。2.提供一个具体工厂类：实现了在抽象工厂创建产品的工厂方法。3.提供一个抽象产品类：抽象产品中声明了产品具有的业务方法。1.提供一个抽象工厂类：声明一组创建一族产品的工厂方法。1.提供一个抽象工厂类：所有具体工厂类的父类。

8088单板机C语言sprintf（）格式化串口输出---Prj04

最新发布

cxhust001688的博客

05-31

207

该代码实现了一个基于I/O端口操作的嵌入式系统程序，主要功能包括：1. 提供基本的I/O操作函数(inp/outp)；2. 实现串口通信功能(uart_send/uart_str_send)；3. 自定义格式化输出函数tiny_sprintf，支持%d、%x、%s等格式；4. 主程序循环发送格式化字符串到串口，并控制LED闪烁。程序采用自定义的可变参数实现(tiny_stdarg.h)，包含数字转换(itoa)和格式化输出功能，适用于资源受限的嵌入式环境。最后通过循环实现LED灯的闪烁效果。

C++八股 —— 手撕线程池

m0_46329175的博客

05-31

1227

C++手动实现线程池

嵌入式仿真平台如何重塑I²C协议教学：以AT24C02实验为例

m0_66496721的博客

05-28

1026

本文探讨了I²C总线协议在嵌入式系统中的工程实践价值，重点分析AT24C02 EEPROM芯片的应用场景和技术难点。介绍了深圳航天科技创新研究院开发的嵌入式仿真教学平台的核心优势，包括硬件仿真、智能化教学和云端实验生态。平台通过优化实验流程、解决教学痛点，显著提升教学成效。文章还提供了平台操作指南和进阶实验建议，展示了该平台在支撑高校课程改革方面的成功实践，具备工业级精度和全协议支持等特性，适用于多学科需求。

C++ - 模板(一) #泛型编程 #函数模板 #类模板

Distinguished_z的博客

05-30

971

本文介绍了C++中泛型编程的核心概念——模板。主要内容包括：函数模板：通过template声明通用代码框架，编译器根据实参类型自动生成具体函数，解决代码复用问题。重点讲解了隐式/显式实例化及模板参数匹配原则。类模板：允许创建可处理多种数据类型的通用类，必须显式实例化。以栈类为例演示了类模板实现，强调成员函数定义需与声明放在同一文件。模板优势：相比typedef和函数重载，模板能更好实现类型无关的通用代码，提升代码复用率和可维护性。文中通过交换函数和栈类的改造案例，展示了模板的实际应用价值。

【C++】C++入门基础

2401_85487070的博客

05-30

421

• 定义命名空间，需要使⽤到namespace关键字，后⾯跟命名空间的名字，然后接⼀对{}即可，{}中即为命名空间的成员。命名空间中可以定义变量/函数/类型等。• namespace本质是定义出⼀个域，这个域跟全局域各⾃独⽴，不同的域可以定义同名变量，所以下⾯的rand不在冲突了。• C++中域有函数局部域，全局域，命名空间域，类域；域影响的是编译时语法查找⼀个变量/函数/ 类型出处(声明或定义)的逻辑，所有有了域隔离，名字冲突就解决了。

WARNING:tensorflow:From /home/dwh/anaconda3/envs/egpo_a/lib/python3.7/site-packages/tensorflow/python/compat/v2_compat.py:96: disable_resource_variables (from tensorflow.python.ops.variable_scope) is deprecated and will be removed in a future version. Instructions for updating: non-resource variables are not supported in the long term Traceback (most recent call last): File "/home/dwh/EGPO/training_script/train_cql.py", line 5, in <module> from egpo_utils.cql.cql import CQLTrainer File "/home/dwh/EGPO/egpo_utils/cql/cql.py", line 7, in <module> from egpo_utils.cql.cql_torch_policy import CQLTorchPolicy File "/home/dwh/EGPO/egpo_utils/cql/cql_torch_policy.py", line 13, in <module> from ray.rllib.agents.sac.sac_torch_policy import _get_dist_class, stats, \ ImportError: cannot import name '_get_dist_class' from 'ray.rllib.agents.sac.sac_torch_policy' (/home/dwh/anaconda3/envs/egpo_a/lib/python3.7/site-packages/ray/rllib/agents/sac/sac_torch_policy.py) 进程已结束，退出代码为 1

04-03

<think>好的，我现在需要帮助用户解决他们遇到的Python错误。首先，用户提供的错误信息是关于TensorFlow的警告和一个ImportError，无法从ray.rllib.agents.sac.sac_torch_policy导入_get_dist_class。我需要分析可能的原因和解决方案。首先，错误分为两部分：警告和导入错误。TensorFlow的警告可能不是主要问题，但需要注意是否与版本有关。不过主要问题应该是导入错误，导致程序退出。用户使用的是Ray的RLlib中的SAC Torch策略，但无法找到_get_dist_class这个函数。可能的原因是RLlib的版本更新导致该函数被移除或改名。我需要确认不同版本中这个函数是否存在。首先，检查Ray RLlib的文档或源代码变更记录。假设在较新版本中，RLlib可能重构了代码，导致某些内部函数被移动或删除。例如，_get_dist_class可能被移动到其他模块，或者被重命名。接下来，用户的环境路径显示他们使用的是Anaconda环境下的Python 3.7，可能安装了特定版本的Ray。用户需要检查当前安装的Ray版本，并查看该版本中sac_torch_policy.py是否包含_get_dist_class函数。解决方案可能包括： 1. 降级Ray到兼容的版本，例如旧版本中可能存在该函数。 2. 修改用户代码，使用新的函数或模块路径，如果RLlib已经更新了API。 3. 检查是否有拼写错误或导入语句的错误，但根据错误信息，导入路径是正确的。另外，用户可能在使用某个特定库（如EGPO）时依赖旧版Ray。需要查看EGPO的文档或requirements，确认所需的Ray版本，然后调整环境安装对应的版本。可能的步骤是建议用户先检查Ray的版本，尝试安装特定版本如ray==1.6.0或更早，然后重新运行代码。如果问题依旧，可能需要修改导入语句，或者联系项目维护者获取更新后的代码。此外，TensorFlow的警告提示resource variables的问题，可能需要升级或降级TensorFlow版本，但可能次要于导入错误，优先解决ImportError。总结，用户的问题可能源于Ray版本不兼容，解决方法是指定正确的Ray版本，或修改代码以适应新版本。</think>这个错误提示涉及两个主要问题：TensorFlow的警告和RLlib的导入错误。以下是逐步分析和解决方案： --- ### **一、TensorFlow警告分析** ``` WARNING:tensorflow:...non-resource variables are not supported... ``` - **原因**：这是TensorFlow的弃用警告，表明代码中使用了旧版`non-resource variables`，但新版本TensorFlow已逐步废弃此特性。 - **解决方案**： 1. 升级TensorFlow到最新版本： ```bash pip install --upgrade tensorflow ``` 2. 如果问题依旧，可暂时忽略警告（不影响程序运行），或根据提示修改代码中创建变量的方式。 --- ### **二、RLlib导入错误分析** ``` ImportError: cannot import name '_get_dist_class' from 'ray.rllib.agents.sac.sac_torch_policy' ``` - **原因**：`_get_dist_class`是RLlib内部函数，可能因版本更新被移除或重命名。检查你的Ray版本： ```bash pip show ray ``` - **关键问题**：EGPO项目可能依赖旧版Ray（如1.6.0），而你的环境安装了新版Ray（如2.x）。 - **解决方案**： 1. **降级Ray到兼容版本**： ```bash pip install ray==1.6.0 # 或EGPO文档指定的版本 ``` 2. **手动修复代码**（适用于熟悉RLlib的情况）： - 检查新版RLlib的源码，找到`_get_dist_class`的替代函数（如`get_dist_class`）。 - 修改`cql_torch_policy.py`第13行的导入语句： ```python from ray.rllib.agents.sac.sac_torch_policy import get_dist_class, stats, ... ``` 3. **联系EGPO维护者**：反馈版本兼容性问题，获取更新后的代码。 --- ### **三、完整解决步骤** 1. **创建新的虚拟环境**（避免依赖冲突）： ```bash conda create -n egpo_env python=3.7 conda activate egpo_env ``` 2. **安装指定版本的Ray和TensorFlow**： ```bash pip install ray==1.6.0 tensorflow==2.6.0 ``` 3. **重新安装EGPO及其依赖**： ```bash cd /home/dwh/EGPO pip install -r requirements.txt ``` 4. **重新运行训练脚本**： ```bash python /home/dwh/EGPO/training_script/train_cql.py ``` --- ### **四、附加建议** - 如果问题依旧，检查EGPO的GitHub仓库的`Issues`页面，搜索类似错误。 - 确保所有依赖库版本严格匹配（尤其是`ray`、`tensorflow`、`torch`）。