4、强化学习基础概念与发展历程解析

强化学习基础概念与发展历程解析

1. 算法策略更新机制

在强化学习中,智能体依据预测来决定下一步行动。通常,它会尝试改变策略以优化策略。可能会选择转向预测奖励更高的状态,也可能选择进一步探索。无论何种选择,行动都会反馈给环境,然后这个循环又重新开始。多数算法都遵循这一模式。

下面用 mermaid 流程图展示这一过程:

graph LR
    A[预测] --> B[决定行动]
    B --> C{行动选择}
    C -->|高奖励状态| D[转向高奖励状态]
    C -->|探索| E[进一步探索]
    D --> F[反馈给环境]
    E --> F
    F --> A

2. 强化学习的起源

强化学习通过试错进行学习的理念源于早期动物学习心理学研究。1927 年,著名俄罗斯生理学家伊万·巴甫洛夫发现,可用与进食无关的刺激触发动物消化系统。在一个著名实验中,他测量了狗看到食物时的唾液分泌量,同时引入了声音。经过多次重复,狗仅对声音就会分泌唾液。这种先天反射(如眨眼或分泌唾液)与新刺激之间的联系,现在被称为经典或巴甫洛夫条件反射。

3. 首个强化学习算法

1972 年,罗伯特·雷斯克拉和艾伦·瓦格纳发现了巴甫洛夫条件反射无法解释的现象。他们先向兔子眼睛吹气使其眨眼,然后训练兔子将声音与吹气联系起来,兔子听到声音就会眨眼。接着,他们又训练兔子在听到声音和看到光时眨眼。当只闪灯时,兔子却不眨眼了。兔子形成了期望层次,声音和光才意味着眨眼。当基础期望(

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值