
强化学习
星光技术人
自动驾驶感知算法工程师
展开
-
强化学习(二)
监督学习只是构建一个学习算法,强化学习还需要构造一个用于与智能体进行交互的环境 凡是可以提供智能体与环境交互的软件都可以用来作为训练强化学习的仿真环境,各种游戏软件和机器人仿真软件。 这些仿真环境必备的两个要素是物理引擎和图像引擎。物理引擎用来计算仿真环境中物体是如何运动的,背后的原理是刚体运动学,流体力学和柔体动力学。常用的开源物理引擎有ODE,Bullet,Physx和Havok。图像引擎则用来显示仿真环境中的物体,包括渲染,绘图等,常用的图像引擎是OpenGL。 OpenAI公司的gym框架,集成了很原创 2021-04-19 15:28:02 · 127 阅读 · 0 评论 -
强化学习(一)
这个专栏是阅读郭宪博士书籍的笔记,笔记用来学习和参考,不做其他用途 强化学习应用:非线性倒立摆系统,下棋,机器人控制,视频游戏,人机对话,无人驾驶,机器翻译,文本预测。 什么是强化学习 最简单的强化学习数学模型是马尔可夫决策过程(MDP),这个模型对问题做了比较多的限制。 面对的状态 sts_tst,数量是有限的 采取的行动方案ata_tat,数量是有限的。 对应特定状态,当下的收益rtr_trt是明确的。 在某个h时刻t,采取行动ata_tat后,达到的下一个状态s(t+1)有多种可能,不是原创 2021-04-19 10:51:49 · 309 阅读 · 0 评论