25、机器学习：从基础到强化学习的全面指南

白露未晞593

于 2025-07-16 08:06:13 发布

阅读量7

点赞数

CC 4.0 BY-SA版权

分类专栏： Python机器学习六步精通指南文章标签：机器学习强化学习 Q-学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/bash7scripter/article/details/149384825

Python机器学习六步精通指南专栏收录该内容

25 篇文章 ¥399.00 ¥499.90

订阅专栏

超级会员免费看

机器学习：从基础到强化学习的全面指南

1. 模型训练成果展示

在模型训练过程中，经过多个轮次（Epoch）的迭代，模型展现出了良好的性能。以下是训练过程中的详细信息：
| Epoch | 步数 | 每步耗时 | 损失值（loss） | 准确率（acc） | 验证损失值（val_loss） | 验证准确率（val_acc） |
| — | — | — | — | — | — | — |
| 4/5 | 29404/29404 | 14s 480us/step | 0.0472 | 0.9852 | 0.0258 | 0.9893 |
| 5/5 | 29404/29404 | 14s 481us/step | 0.0404 | 0.9871 | 0.0259 | 0.9907 |

测试结果显示，测试分数为 0.025926338075212205，测试准确率达到了 0.990742645546184。对于前五位数字分类器，经过 5 个轮次的训练后，测试准确率达到了 99.8%；在进行迁移和微调后，后五位数字的测试准确率为 99.2%。

2. 强化学习基础概念

强化学习是一种基于与环境交互的目标导向学习方法。其目标是让一个智能体（agent）在环境中采取行动，以最大化其获得的奖励。这里的智能体是一个智能程序，而环境则是外部条件。

2.1 信用分配问题示例

以教狗新技能为例，不需要告诉狗具体该怎么做，而是在它做对时给予奖励，做错时进行惩罚。狗需要在每一步记住是什么行为导致了奖励或惩罚，这就是所谓的信用分配问题。同样，对于计算机智能体，其目标是采取行动从状态 ( s_t ) 转移到

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。