强化学习基础概念与发展历程解析
1. 算法策略更新机制
在强化学习中,智能体依据预测来决定下一步行动。通常,它会尝试改变策略以优化策略。可能会选择转向预测奖励更高的状态,也可能选择进一步探索。无论何种选择,行动都会反馈给环境,然后这个循环又重新开始。多数算法都遵循这一模式。
下面用 mermaid 流程图展示这一过程:
graph LR
A[预测] --> B[决定行动]
B --> C{行动选择}
C -->|高奖励状态| D[转向高奖励状态]
C -->|探索| E[进一步探索]
D --> F[反馈给环境]
E --> F
F --> A
2. 强化学习的起源
强化学习通过试错进行学习的理念源于早期动物学习心理学研究。1927 年,著名俄罗斯生理学家伊万·巴甫洛夫发现,可用与进食无关的刺激触发动物消化系统。在一个著名实验中,他测量了狗看到食物时的唾液分泌量,同时引入了声音。经过多次重复,狗仅对声音就会分泌唾液。这种先天反射(如眨眼或分泌唾液)与新刺激之间的联系,现在被称为经典或巴甫洛夫条件反射。
3. 首个强化学习算法
1972 年,罗伯特·雷斯克拉和艾伦·瓦格纳发现了巴甫洛夫条件反射无法解释的现象。他们先向兔子眼睛吹气使其眨眼,然后训练兔子将声音与吹气联系起来,兔子听到声音就会眨眼。接着,他们又训练兔子在听到声音和看到光时眨眼。当只闪灯时,兔子却不眨眼了。兔子形成了期望层次,声音和光才意味着眨眼。当基础期望(
超级会员免费看
订阅专栏 解锁全文
3300

被折叠的 条评论
为什么被折叠?



