12、深度强化学习入门

深度强化学习入门

1. 深度强化学习简介

深度学习是一种生成特征表示的策略,它通过多层结构将输入映射到输出。这种结构使模型能够将复杂输入的表示学习为分层概念,从低级特征逐步构建到更抽象的表示。随着训练样本数量的增加以及计算机软硬件的改进,深度学习变得更加实用和强大,在计算机视觉、语音识别和自然语言处理等领域取得了显著成功。

强化学习的目标是创建一个智能体,通过决策来最大化总奖励。在强化学习中,智能体与环境进行交互,观察受动作影响的状态变化,并接收奖励信号。通过试错过程,智能体学习采取一系列行动以实现目标。

深度强化学习(DRL)是强化学习与深度学习的结合,其中深度神经网络(DNN)在强化学习框架中用作函数近似器,通过梯度下降优化损失函数(相对于神经网络的权重)。DRL允许智能体直接从原始输入中学习有意义的表示,减少了对领域知识和手工特征的需求,还有助于扩大强化学习问题的维度。

不同类型的DRL算法对强化学习的不同组件进行近似:
- 使用神经网络近似价值函数,估计状态或状态 - 动作对的优劣。
- 使用神经网络近似策略,即智能体在给定状态下如何选择动作。
- 使用神经网络学习模型动态。

由于强化学习的组件由神经网络参数化,因此可以使用反向传播和随机梯度下降来训练框架,更新参数(即神经网络的权重)。

2. 深度神经网络基础
2.1 人工神经网络基础

人工神经网络(ANN)是一种模拟人类大脑中生物神经网络处理信息机制的计算模型。ANN的基本元素是神经元,它接收来自其他神经元或外部源的输入,然后计算输出。神经元执行加权输入之和的函数,例如:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值