1.概念
强化学习是一种算法,是让计算机实现从一开始什么都不懂, 脑袋里没有一点想法, 通过不断地尝试, 从错误中学习, 最后找到规律, 学会了达到目的的方法. 这就是一个完整的强化学习过程。
2.学习原理
没有人去告诉对象该做什么样的决定,只是在你做了某一个决定之后对你的行为作出评价,给予奖励或者惩罚。这样你之后做决定的时候就会朝有奖励的行为给予更多的偏向。然后就会衍生出大量的数据来寻量这个对象。
3.算法实现
强化学习是一个大家族, 他包含了很多种算法,, 比如有通过行为的价值来选取特定行为的方法, 包括使用表格学习的 q learning, sarsa, 使用神经网络学习的 deep q network, 还有直接输出行为的 policy gradients, 又或者了解所处的环境, 想象出一个虚拟的环境并从虚拟的环境中学习。
本文介绍了强化学习的基本概念,学习原理,以及其包含的多种算法,如Q-learning、DQN和Policy Gradients等,展示了如何通过不断试错和反馈来优化决策过程。
4416

被折叠的 条评论
为什么被折叠?



