- 博客(6)
- 收藏
- 关注
原创 在pybullet运行仿真环境出现Not connected to physics server问题
运行一个最简单的hello_pybullet.py程序,但是每次都出现无法连接物理服务器的问题。百思不得其解我去问了同实验室一个同学,他之前用pybullet有一阵子了,本着同学之间友好交流的想法向他请教,结果他暗戳戳嘲讽我,说我是不是没安装pybullet!没安装!!!没安装能运行起来吗!!!虽然我是很多东西都不会,但也不至于要运行仿真环境,连工具都不安装吧!!!气死我了!最后老子自己找出问题了!就是我手贱把跳出来的仿真环境手动关掉了!!!因为设置的循环太长,模型又太简单,我看模型不动就手动关掉了
2022-03-04 14:26:39
1751
4
原创 论文阅读笔记:Domain Randomization for Active Pose Estimation
摘要本文主要提出一种基于域随机化的姿态估计方法。通过训练神经网络,直接从环境的2D图像中预测机器人的姿态。关于提高基于域随机化的姿态估计的准确性,文章提出主动感知(active perception)方法:移动机器人以获得更好的姿态估计,在模拟环境中进行训练,用域随机化将其转化为现实。介绍本文为了提高基于域随机化的姿态估计的准确性,对环境进行一些已知的几何变换,如移动环境中的物体,移动机器人手臂或干扰物、改变相机角度等。同时提出主动姿态估计方法:从不同角度和不同位置看一个物体,从而获得更准确、更稳健
2022-02-21 20:05:00
695
原创 强化学习(第二版)笔记——第六章 时序差分学习
参考周博磊老师课程Richard S.Sutton 《Reinforcement Learning》第六章时序差分学习 Temporal-Difference Learning TD1. 时序差分学习在强化学习中的应用2 时序差分预测1. 时序差分学习在强化学习中的应用在强化学习所有的思想中,时序差分(TD)学习无疑是最核心、最新颖的思想。时序差分学习结合了蒙特卡洛方法和动态规划方法的思想。与蒙特卡洛方法一致,时序差分方法也可以直接从与环境互动的经验中学习策略,而不需要构建关于环境动态特性的
2021-12-02 16:40:49
1113
原创 强化学习(第二版)笔记——第五章 蒙特卡洛方法
参考周博磊老师课程Richard S.Sutton 《Reinforcement Learning》第五章蒙特卡洛方法 Monte Carlo Methods1 蒙特卡洛方法在强化学习中的应用2 蒙特卡洛预测(Monte Carlo Prediction)2.1 蒙特卡洛算法学习状态价值函数2.2 蒙特卡洛算法与动态规划的区别3 动作价值的蒙特卡洛估计3.1 使用蒙特卡洛算法确定动作价值函数3.2 试探性出发4 蒙特卡洛控制4.1 经典策略迭代算法的蒙特卡洛版本4.2 基于试探性出发的蒙特卡洛(
2021-11-29 10:59:43
1622
原创 强化学习(第二版)笔记——第四章 动态规划
参考周博磊老师课程Richard S.Sutton 《Reinforcement Learning》第四章动态规划 Dynamic Programming DP1. 动态规划在强化学习中的应用2. 策略评估(预测)(Policy Evaluation(Prediction))1. 动态规划在强化学习中的应用动态规划(DP)是一类优化方法,在给定一个用马尔可夫决策过程(MDP)描述的完备环境模型的情况下,可以计算最优的策略。但对于强化学习问题,传统的DP算法作用有限。原因有二:完备的环境模型
2021-11-22 15:40:36
542
原创 强化学习(第二版)笔记——第三章 有限马尔可夫决策过程
有限马尔可夫决策过程1. “智能体-环境”交互接口1.1 状态与收益的概率函数1.2 状态转移概率函数1.3“状态-动作”二元组的期望收益1.4“状态-动作-后继状态”三元组的期望收益2.目标和收益3.回报和分幕功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowcha
2021-11-12 14:40:58
1255
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人