基于C#的机器学习--惩罚与奖励-强化学习

山信大大懒虫

已于 2022-01-27 09:09:26 修改

阅读量3.6k

点赞数 3

分类专栏：基于C#的机器学习文章标签： AI C# 机器学习

于 2019-01-12 15:10:35 首次发布

本文链接：https://blog.youkuaiyun.com/wyz19940328/article/details/86360602

版权

本文介绍了基于C#的强化学习应用，通过惩罚与奖励机制，以Q-learning和SARSA算法为例，阐述如何使智能体学习最优行为。文中详细讲解了这两种算法的原理，并通过汉诺塔游戏进行示例，展示了如何在不同状态下找到最小步数的解决方案。文章结尾总结了强化学习在马尔可夫决策过程中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

强化学习概况

正如在前面所提到的，强化学习是指一种计算机以“试错”的方式进行学习，通过与环境进行交互获得的奖赏指导行为，目标是使程序获得最大的奖赏，强化学习不同于连督学习，区别主要表现在强化信号上，强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价(通常为标量信号)，而不是告诉强化学习系统如何去产生正确的动作。唯一的目的是最大化效率和/或性能。算法对正确的决策给予奖励，对错误的决策给予惩罚，如下图所示：

持续的训练是为了不断提高效率。这里的重点是性能，这意味着我们需要，在看不见的数据和算法已经学过的东西，之间找到一种平衡。该算法将一个操作应用到它的环境中，根据它所做的行为接受奖励或惩罚，不断的重复这个过程，等等。

接下来让我们看一个程序，概念是相似的，尽管它的规模和复杂性很低。想象一下，是什么让自动驾驶的车辆从一个地点移动到了另一个点。

让我们看看我们的应用程序：

在这里，可以看到我们有一个非常基本的地图，一个没有障碍，但有外部限制的墙。黑色块(start)是我们的对象，红色块(stop)是我们的目标。在这个应用程序中，我们的目标是让我们的对象在墙壁以内到达目标位置。如果我们的下一步把我们的对象放在一个白色的方块上，我们的算法将得到奖励。如果我们的下一步行动超出墙壁的围地范围，我们将受到惩罚。在这个例子中，它的路径上绝对没有障碍，所以我们的对象应该能够到达它的目的地。问题是:它能多快学会?
下面是另一个比较复杂的地图示例：