24、基于好奇心驱动探索的DQN与ICM模型训练实践

基于好奇心驱动探索的DQN与ICM模型训练实践

1. 搭建Q网络与策略函数

在强化学习中,我们为智能体使用深度Q网络(DQN)。DQN接收一个状态并输出动作值,即对采取每个可能动作的预期奖励的预测。我们利用这些动作值来确定动作选择策略。

对于特定游戏,有12个离散动作,因此DQN的输出层将产生一个长度为12的向量,其中第一个元素是采取动作0的预测值,依此类推。动作值通常在两个方向上都是无界的,如果奖励可以是正或负(在这个游戏中是可能的),动作值也可以是正或负,所以我们不在最后一层应用任何激活函数。

DQN的输入是形状为 Batch x 3 x 42 x 42 的张量,其中通道维度(3)表示游戏的最近三帧。

DQN的架构由四个卷积层和两个线性层组成。在每个卷积层和第一个线性层之后使用指数线性单元(ELU)激活函数,但最后一层之后不使用激活函数。架构图如下:

graph LR
    A[输入: St 1 x 3 x 42 x 42] --> B[Conv2d in_channels=3, out_channels=32, kernel_size=(3,3), stride=2, padding=1]
    B --> C[Conv2d 32, 32, (3,3), 2, 1]
    C --> D[Conv2d 32, 32, (3,3), 2, 1]
    D --> E[Conv2d 32, 32, (3,3), 2, 1]
    E --> F[Linear(288, 100)]
    F --> G[Li
基于matlab建模FOC观测器采用龙贝格观测器+PLL进行无传感器控制(Simulink仿真实现)内容概要:本文档主要介绍基于Matlab/Simulink平台实现的多种科研仿真项目,涵盖电机控制、无人机路径规划、电力系统优化、信号处理、图像处理、故障诊断等多个领域。重点内容之一是“基于Matlab建模FOC观测器,采用龙贝格观测器+PLL进行无传感器控制”的Simulink仿真实现,该方法通过状态观测器估算电机转子位置速度,结合锁相环(PLL)实现精确控制,适用于永磁同步电机等无位置传感器驱动场景。文档还列举了大量相关科研案例算法实现,如卡尔曼滤波、粒子群优化、深度学习、多智能体协同等,展示了Matlab在工程仿真算法验证中的广泛应用。; 适合人群:具备一定Matlab编程基础,从事自动化、电气工程、控制科学、机器人、电力电子等相关领域的研究生、科研人员及工程技术人员。; 使用场景及目标:①学习并掌握FOC矢量控制中无传感器控制的核心原理实现方法;②理解龙贝格观测器PLL在状态估计中的作用仿真建模技巧;③借鉴文中丰富的Matlab/Simulink案例,开展科研复现、算法优化或课程设计;④应用于电机驱动系统、无人机控制、智能电网等实际工程仿真项目。; 阅读建议:建议结合Simulink模型代码进行实践操作,重点关注观测器设计、参数整定仿真验证流程。对于复杂算法部分,可先从基础案例入手,逐步深入原理分析模型改进。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值