7、机器学习与人工神经网络:原理、分类及应用

机器学习与人工神经网络:原理、分类及应用

1. 强化学习算法

强化学习算法主要与动态规划技术相关,广泛应用于人工智能开发领域,如自动驾驶汽车和游戏中的人工智能。其目标是通过算法执行的动作来最大化累积奖励,例如在游戏中以团队形式赢得一轮,而非仅让每个个体人工智能玩家获得最佳分数。

与监督学习不同,监督学习的训练数据明确给出正确答案,决定了模型的训练方向;而强化学习没有明确答案,强化代理需自行决定如何执行给定任务以最大化给定函数。由于缺乏训练数据集,它只能从自身经验中学习。强化学习被认为介于监督学习和无监督学习之间,其输入没有监督学习中的标签信息,而是与奖励值相关,每次执行都能通过最大化奖励来改进整体模型的决策。这可以用感知 - 动作 - 学习循环来表示。

强化学习主要有两种方法:
- 策略搜索 :使用基于梯度或无梯度的方法搜索最优策略。例如,谷歌的Alpha Go就是基于策略搜索,无需人类干预或交互就能学习并取得优势。
- 价值函数近似 :该方法估计动作的预期奖励,并试图实现优化的学习过程和结果。关键组成部分是状态 - 动作价值函数,也称为质量函数。

2. 机器学习算法分类

2.1 基于算法结构和基本操作原理的分类

Pedro Domingos提出了五种算法家族的分类:
| 算法家族 | 具体算法 | 特点 |
| — | — | — |
| 符号主义者(Symbolists) | 决策树(Decision tree)、随机森林(Random forest) | 决策树是一种类似流程图的树结

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值