- 博客(6)
- 收藏
- 关注
原创 强化学习Policy Gradient笔记
策略梯度(Policy Gradient)方法是强化学习中的一种重要范式,它直接对策略进行参数化,并通过梯度上升(或下降)来优化策略。与值函数方法不同,策略梯度方法不依赖于估计状态值或动作值,而是直接学习一个从状态到动作的映射(即策略)。
2025-04-11 00:29:19
567
原创 Q-Learning 算法学习记录
Q-Learning是一种基于值的强化学习方法,通过与环境的交互不断更新 Q 值,以逼近最优策略。epsilon 贪婪策略是用来平衡探索与利用的策略,帮助智能体在初期通过随机探索积累经验,后期逐步转向根据已知信息选择最优动作。这个策略的目的是让智能体在训练初期进行足够的探索,以获取全面的环境信息,随着时间的推移,逐渐减少探索,更多地利用已知的 Q 值做出决策。
2025-04-10 01:00:16
669
原创 浙大px4ctrl代码分部解读
电机空转结束后进入起飞状态进入get_takeoff_land_des(const double speed), 这个函数的主要目的是根据起飞或降落的切换时间、速度以及位置更新公式,计算起飞或降落过程中的期望状态,包括位置、速度、加速度、偏航角度和偏航角速率。在/px4ctrl/src/PX4CtrlFSM.cpp的状态机中进行状态转换由MANUAL_CTRL状态转到AUTO_TAKEOFF状态并控制px4切换到offboard模式并解锁。当到达指定高度时进行一个设定好的延时则进入悬停状态。
2024-05-01 20:57:07
1075
原创 ROS2学习笔记
每一个功能包都有一个标配的manifest.xml文件,用于记录这个包的名字,构建工具,编译信息,拥有者,干啥用的等信息。输出每个包所在路径的前缀(当包有报错时 方便去编译配置文件里面修改)通过这个信息,就可以自动为该功能包安装依赖,构建时确定编译顺序等。查看turlesim中所有可执行功能,(turlesim为例)启动一个包中的一个可执行功能。
2023-09-29 20:35:27
201
1
原创 int* p和int *p的区别
区别就是用起来没有什么不同完全相同,硬要是说区别那就是有一些在阅读层面的不同。p是创建一个指向int的指针。p是创建一个int 被p指向。
2023-04-17 15:47:17
480
1
智能路灯程序,内包含了INA219功率计驱动程序,bh1750照度传感器驱动程序,SR04驱动程序,GPS报文解析程序
2023-07-07
ESP8266串口转TCP收发程序
2023-06-11
TA创建的收藏夹 TA关注的收藏夹
TA关注的人