AI之强化学习、无监督学习、半监督学习和对抗学习

最新推荐文章于 2025-10-24 05:05:41 发布

原创

最新推荐文章于 2025-10-24 05:05:41 发布 · 3.5k 阅读

9 ·

CC 4.0 BY-SA版权

本文介绍了机器学习领域的几种核心方法，包括强化学习、无监督学习、半监督学习和对抗学习。强化学习关注如何采取行动以最大化收益；无监督学习旨在自动分类或聚类输入数据；半监督学习结合了少量标注数据与大量未标注数据；对抗学习则通过生成对抗网络提升模型鲁棒性。

1.强化学习

文章目录

1.强化学习
- 1.1 强化学习原理
- 1.2 强化学习与监督学习
2.无监督学习
3.半监督学习
4.对抗学习

强化学习（英语：Reinforcement Learning，简称RL）是机器学习中的一个领域，是 除了监督学习和非监督学习之外的第三种基本的机器学习方法。 强调如何基于环境而行动，以取得最大化的预期利益[1]。

与监督学习不同的是，强化学习不需要带标签的输入输出对，同时也无需对非最优解的精确地纠正。

1.1 强化学习原理

强化学习是从动物学习、参数扰动自适应控制等理论发展而来，其基本原理是：
如果模型的某个行为策略导致环境正的奖赏(强化信号)，那么模型以后产生这个行为策略的趋势便会加强。模型的目标是在每个离散状态发现最优策略以使期望的折扣奖赏和最大。
强化学习把学习看作试探评价过程，模型选择一个动作用于环境，环境接受该动作后状态发生变化，同时产生一个强化信号(奖或惩)反馈给模型，模型根据强化信号和环境当前状态再选择下一个动作，选择的原则是使受到正强化(奖)的概率增大。选择的动作不仅影响立即强化值，而且影响环境下一时刻的状态及最终的强化值。

1.2 强化学习与监督学习

强化学习不同于连接主义学习中的监督学习，主要表现在强化信号上，强化学习中由环境提供的强化信号是模型对所产生动作的好坏作一种评价(通常为标量信号)，而不是告诉模型如何去产生正确的动作。
由于外部环境提供了很少的信息，模型必须靠自身的经历进行学习。通过这种方式，模型在行动一一评价的环境中获得知识，改进行动方案以适应环境。
强化学习系统学习的目标是动态地调整参数，以达到强化信号最大。因此，在强化学习系统中，需要某种随机单元，使用这种随机单元，模型在可能动作空间中进行搜索并发现正确的动作。