机器学习与人工神经网络:原理、分类及应用
1. 强化学习算法
强化学习算法主要与动态规划技术相关,广泛应用于人工智能开发领域,如自动驾驶汽车和游戏中的人工智能。其目标是通过算法执行的动作来最大化累积奖励,例如在游戏中以团队形式赢得一轮,而非仅让每个个体人工智能玩家获得最佳分数。
与监督学习不同,监督学习的训练数据明确给出正确答案,决定了模型的训练方向;而强化学习没有明确答案,强化代理需自行决定如何执行给定任务以最大化给定函数。由于缺乏训练数据集,它只能从自身经验中学习。强化学习被认为介于监督学习和无监督学习之间,其输入没有监督学习中的标签信息,而是与奖励值相关,每次执行都能通过最大化奖励来改进整体模型的决策。这可以用感知 - 动作 - 学习循环来表示。
强化学习主要有两种方法:
- 策略搜索 :使用基于梯度或无梯度的方法搜索最优策略。例如,谷歌的Alpha Go就是基于策略搜索,无需人类干预或交互就能学习并取得优势。
- 价值函数近似 :该方法估计动作的预期奖励,并试图实现优化的学习过程和结果。关键组成部分是状态 - 动作价值函数,也称为质量函数。
2. 机器学习算法分类
2.1 基于算法结构和基本操作原理的分类
Pedro Domingos提出了五种算法家族的分类:
| 算法家族 | 具体算法 | 特点 |
| — | — | — |
| 符号主义者(Symbolists) | 决策树(Decision tree)、随机森林(Random forest) | 决策树是一种类似流程图的树结
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



