- 博客(3)
- 收藏
- 关注
原创 强化学习飞行器智能决策python——中段突防
本文介绍了基于强化学习的多智能体对抗训练系统,主要包括三个核心模块:1) 常规训练模块(train)实现"经验收集-网络更新-结果记录"的循环训练流程;2) 元学习模块(train_meta)在预训练模型基础上进行快速场景适应优化;3) 可视化模块(display)用于策略性能评估和轨迹展示。系统采用TD3/MASAC等算法,支持静态/动态威胁环境下的协同对抗训练,通过配置类集中管理参数,实现了50次试验96%的成功率。实验结果表明,该系统能有效处理复杂环境中的多智能体协同决策问题。
2025-09-17 20:46:44
1684
原创 强化学习python零基础实战2——常用激活函数的可视化
该代码实现了四种常用激活函数的可视化对比:sigmoid、softplus、leakyrelu和mish。sigmoid输出S形曲线(0,1),适合概率输出;leakyrelu在负区间保留小斜率(0.1),避免神经元死亡;mish结合tanh和softplus,具有平滑特性和稳定梯度。通过matplotlib绘制了三种函数在[-5,5]区间的曲线图,使用不同颜色标注并添加图例,最终保存为600dpi的图像文件。结果直观展示了各函数的特点:sigmoid的饱和性、leakyrelu的分段线性性以及mish的平
2025-09-17 09:59:15
344
原创 强化学习python零基础实战1——随机智能体(Random Agent)
摘要:本文介绍了一个使用Python和gym库实现随机动作策略的强化学习程序。该程序在CartPole-v1环境中运行10个episode,每个episode随机选择左右推动小车的动作,并记录杆子保持平衡的步数。关键步骤包括:导入gym和numpy库、创建不渲染的环境对象、执行随机动作策略、统计每个episode的步数并计算平均值。文中还解释了gym.make()函数、环境渲染模式选择(None/human/rgb_array/ansi)以及环境对象的基本方法(reset/step/close)。
2025-09-12 11:01:16
1696
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅