机器学习:从基础到强化学习的全面指南
1. 模型训练成果展示
在模型训练过程中,经过多个轮次(Epoch)的迭代,模型展现出了良好的性能。以下是训练过程中的详细信息:
| Epoch | 步数 | 每步耗时 | 损失值(loss) | 准确率(acc) | 验证损失值(val_loss) | 验证准确率(val_acc) |
| — | — | — | — | — | — | — |
| 4/5 | 29404/29404 | 14s 480us/step | 0.0472 | 0.9852 | 0.0258 | 0.9893 |
| 5/5 | 29404/29404 | 14s 481us/step | 0.0404 | 0.9871 | 0.0259 | 0.9907 |
测试结果显示,测试分数为 0.025926338075212205,测试准确率达到了 0.990742645546184。对于前五位数字分类器,经过 5 个轮次的训练后,测试准确率达到了 99.8%;在进行迁移和微调后,后五位数字的测试准确率为 99.2%。
2. 强化学习基础概念
强化学习是一种基于与环境交互的目标导向学习方法。其目标是让一个智能体(agent)在环境中采取行动,以最大化其获得的奖励。这里的智能体是一个智能程序,而环境则是外部条件。
2.1 信用分配问题示例
以教狗新技能为例,不需要告诉狗具体该怎么做,而是在它做对时给予奖励,做错时进行惩罚。狗需要在每一步记住是什么行为导致了奖励或惩罚,这就是所谓的信用分配问题。同样,对于计算机智能体,其目标是采取行动从状态 ( s_t ) 转移到