DL
DL
学长很忙
!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
pybullet报错
pybullet.error: Only one local in-process GUI/GUI_SERVER connectionallowed. Use DIRECT connection mode or start a separate GUI physicsserver (ExampleBrowser, App_SharedMemoryPhysics_GUI,App_SharedMemoryPhysics_VR) and connect over SHARED_MEMORY, UDP or.原创 2020-10-25 16:54:19 · 1611 阅读 · 2 评论 -
pybullet 中创建模型无法显示(solved)
显示使用:pybullet.connect(pybullet.GUI)创建物体使用:pybullet.createVisualShape(shapeType=pybullet.GEOM_BOX,halfExtents=[1,1,1])pybullet.createCollisionShape(shapeType=pybullet.GEOM_BOX,halfExtents=[1,1,1])奇怪的是,GUI上看不到创建的东西。换成别的object也是一样。...原创 2020-10-24 16:33:43 · 927 阅读 · 0 评论 -
RL(4):蒙特卡洛法
2. 蒙特卡洛预测Q:已经有一系列的状态SSS和动作AAA,事先不知道转换函数和奖励函数。agent在状态sss时,采取的行动只可能在A(s)A(s)A(s)范围内,且每次agent做完动作之后,都会得到一个奖励。现在假设给定策略π(s)\pi(s)π(s)对于所有s∈Ss\in Ss∈S,应该如何估计这个策略的状态值vπv_\pivπ?在蒙特卡洛预测中,基本思路是让agent在episode中按照给定策略π\piπ走来走去,同时收集沿路线得到的奖励。一个episode由一系列step组成,每个步包括原创 2020-09-09 14:28:34 · 436 阅读 · 0 评论 -
RL(3):动态规划
1. 策略迭代有两个子步骤:policy evaluation策略评估和policy improvement策略改进。策略评估的目的是对于给定的策略π\piπ,确定状态值函数vπ(s)v_\pi(s)vπ(s);策略改进的目的是找出新策略π′(s)\pi'(s)π′(s)使得π′≥π\pi'\ge\piπ′≥π策略迭代的步骤:1.随机选择初始策略π0\pi_0π0,令πk=π0\pi_k=\pi_0πk=π0;2.对πk\pi_kπk实行策略评估,获得状态值vπkv_{\pi_k}vπk原创 2020-09-08 13:44:33 · 407 阅读 · 0 评论 -
RL(2):马尔科夫决策过程
把扫地机器人简化成以下条件:状态序列:{0,1,2,3,4,5}\{0,1,2,3,4,5\}{0,1,2,3,4,5}行为序列:{−1,+1}\{-1,+1\}{−1,+1}转移函数:fˉ(0,±1)=0,fˉ(1,+1)=2,fˉ(1,−1)=0,fˉ(2,+1)=3,fˉ(2,−1)=1\bar f(0,\pm 1)=0 ,\bar f(1,+ 1)=2,\bar f(1,- 1)=0,\bar f(2,+ 1)=3,\bar f(2,- 1)=1fˉ(0,±1)=0,fˉ.原创 2020-09-07 17:44:07 · 285 阅读 · 0 评论 -
强化学习笔记:深度强化学习
在Q-learning中,主要任务是寻找最佳state-action 值Q∗(s,a)Q_*(s,a)Q∗(s,a)。Q-learning的实现(使用更新规则),需要存储和检索state-action对(si,aj)(s_i,a_j)(si,aj)的中间值Q(si,aj)Q(s_i,a_j)Q(si,aj)。通常使用一些数据结构(例如矩阵)来达成目的。我们可以简单地认为数据结构是一个“查找表 look-up table”的值Q(si,aj)Q(s_i,a_j)Q(si,aj),或者简单的一个Q原创 2020-08-22 20:59:41 · 323 阅读 · 0 评论 -
强化学习笔记: Model-free Approaches
Model-free approaches这种方法不需要transition function和reward function。这种方法估计状态值函数q(s,a)q(s,a)q(s,a),从中确定最优策略。主要分为两类:Monte Carlo methods,temporal difference methods。蒙特卡洛法:要想寻找数学问题的近似解,需要借助随机采样过程中获得的经验。当一个agent-environment迭代的模型是不可用的时候,蒙特卡洛法使策略迭代成为可能。在model-fre原创 2020-08-22 19:48:38 · 390 阅读 · 0 评论 -
强化学习笔记: Model-based Approaches(2)
Module-based approaches解决一个强化学习问题主要有以下三步:建模评估value function,确定值函数的最优值。选取policy,根据值函数的最优值选取策略π∗π_∗π∗,这种策略就是强化学习问题的一种解决方案。如果模型是可行的,则可以建立与transition function相关的两种状态的最优值(v∗(s)q∗(s,a)v_*(s) q_*(s,a)v∗(s)q∗(s,a))的递归关系。这种递归关系被称为Bellman Optimality Equati原创 2020-08-22 11:57:38 · 416 阅读 · 0 评论 -
强化学习笔记: Model-based Approaches(1)
1. Model-based Approaches爬行机器人中,每个关节有5个自由度,机器人有25个自由度。把自由度按坐标画出来,这个图表明如果机器人从一种状态移动到另一状态,其形态就发生改变,称为过渡。把所有能转换的状态列出来,是state transition diagram。最终需要的仅仅是爬的最快的路径。最短路径可以被很快编译出,但是指令仅仅来自于外界。更复杂的方式是让机器人基于眼前的任务,生成自己的指令。例如,让机器人通过试错法来学习这些指令。机器人杂乱无章地调整姿态,不同的姿态会得到不同的原创 2020-08-21 21:33:49 · 515 阅读 · 0 评论
分享