强化学习系列--CS 294-112 《深度强化学习课程》
lec 1 课程介绍及概要
所有监督学习问题都可以被重新表述成一个增强学习问题,即便这不见得是一个好主意。如将输入定义为观测,输出定义为行动,损失函数定义为奖励。
2.一个基于深度增强学习的机器人控制系统如下图。机器人摄像头为深度神经网络提供像素图像输入,深度神经网络提供马达扭矩级别的控制输出,形成一个序贯决策循环。神经网络的前几层卷积层可以认为是视觉皮层,而后几层全连接层认为是马达皮层,类似...
原创
2020-05-03 21:28:51 ·
646 阅读 ·
0 评论