实用强化学习指南
强化学习(RL)已经发展了数十年,但直到最近才在学术界之外崭露头角。这部分是因为工业界相关知识的传播还不够广泛,此前大部分文献主要聚焦于算法和人为设计的模拟。如今,研究人员和业界人士开始意识到强化学习的潜力,相关框架和库也不断涌现,提升了人们对它的认知并降低了进入门槛。
强化学习项目的生命周期
典型的强化学习项目从一开始就计划用强化学习来解决,这可能是基于先前的工作,也可能是设计者认识到问题的序列性。强化学习项目也可能从机器学习项目中衍生出来,工程师们试图寻找更好的问题建模方法或提升性能。强化学习项目的生命周期与机器学习和软件工程有很大不同,软件工程之于强化学习,就如同砌砖之于建造桥梁。
强化学习开发过程中,开发者通常会经历一系列熟悉的情绪起伏:
1. 乐观 :“强化学习太厉害了,能控制机器人,肯定也能解决这个问题!”
2. 压力与沮丧 :“为什么不行呢?它能控制机器人,为什么这个问题解决不了?是我的问题吗?”
3. 醒悟 :“哦,原来这个问题比控制机器人难多了。不过我用了深度学习,应该最终能行吧。我得多买些 GPU 来加速。”
4. 恐惧 :“怎么还是不行?这根本不可能!”
5. 简化 :“如果我移除/替换/改变/增强真实数据会怎样?”
6. 惊喜 :“哇,在我的笔记本上只用了 5 分钟就收敛了。记住,别再浪费钱买 GPU 了……”
7. 开心 </
超级会员免费看
订阅专栏 解锁全文
1025

被折叠的 条评论
为什么被折叠?



