14、使用ML - Agents在坦克战斗中构建机器学习机器人

使用ML - Agents在坦克战斗中构建机器学习机器人

1 引言

强化学习(RL)是一种受人类和动物学习及适应环境方式启发的机器学习训练方法。其基本工作原理是基于代理通过一系列行动结果所获得的奖励。也就是说,代理通过试错来学习,通过与环境交互获得的奖励引导行为,旨在使代理获得最大奖励。与监督学习类似,开发者必须为算法设定明确的目标以及奖励和惩罚,因此显式编程是更必要的要求。在训练过程中,算法获得的信息很少,所以RL通常比其他方法需要更长时间才能达到最优解。RL主要通过探索环境和犯错的经验来改进策略。

近年来,人工智能取得了许多突破。大约25年前,AI首次击败了最强的国际象棋棋手,震惊了全世界。20年后的2016年,AlphaGo在围棋比赛中再次击败人类,而围棋的总走法数量可能超过宇宙中的原子数量,这在以前被认为是不可能的。两年后,OpenAIFive被开发出来用于玩更具挑战性的游戏Dota2,这是一款实时策略游戏,其复杂度是围棋和国际象棋的数十到数百倍。OpenAI为人工智能行业开启了一个充满可能性的新时代。

为了创建OpenAIFive,OpenAI团队引入了一种新的强化学习算法——近端策略优化(PPO),它在性能上优于现有技术,同时更易于部署和调整。在能为代理提供有价值且真实观察的环境中,强化学习能产生出色的结果。环境设计需要一个易于使用且高度可配置的工具来模拟现实世界的想法并验证研究人员的理论。Unity是全球最流行的游戏引擎之一,它将自己标榜为一个生态系统,提供具有详细物理模拟和完整可用性的全球实时平台,以满足研究需求。其研究成果被应用于工程、娱乐、客户服务等领域,并出现在具有多平台兼容性的教学模拟器、移动或VR应用中。

为了为代理提供所有必要信息并

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值