62、深度强化学习智能体在云资源管理中的解读与应用

深度强化学习在云资源管理中的可解释性应用

深度强化学习智能体在云资源管理中的解读与应用

1. 深度强化学习智能体的初步研究

在对深度强化学习(DRL)智能体的研究中,有学者对ALE环境游戏中的DRL智能体进行可解释性分析。通过注意力图,能观察到基本的注意力模式,该图是一个标量矩阵,代表了不同二维空间位置的层激活相对于目标任务的相对重要性。研究发现,模型会关注帧中与任务相关的事物,如玩家、敌人和分数。为确保模型真正学会关注感兴趣的对象并根据信息行动,而非仅记忆和对游戏中的特定模式做出反应,研究人员在意外时间和位置注入敌人对象,发现智能体能够正确关注并对新对象做出反应,还具备向前规划/扫描的能力,即从玩家角色开始扫描可用路径,确保路径上没有障碍物或敌人,遇到敌人时会生成另一条路径以避开。

2. 环境设置

研究使用的模拟环境基于先前的工作成果,其模拟过程的基本组件通过CloudSim Plus模拟框架实现,环境由Open AI Gym框架提供的接口进行封装。系统的主要工作负载是一个简单的进化实验,用于改进识别手写数字的网络架构。智能体的主要目标是为运行的工作负载优化分配云基础设施资源。为避免配置真实计算基础设施的高成本,智能体的训练在模拟环境中进行,同时为了在合理时间内完成实验,加快了模拟时间并限制了每轮的步数。

奖励函数R的计算公式如下:
[R = -(NumberOfVMs * HourlyCostOfVM + SlaPenalty)]
其中:
- (HourlyCostOfVM = \$0.2)
- (SlaPenalty = NumberOfSecondsOfDelay * Penalty)
- (Penalty = 0.00001\$ ) </

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值