鱼羊 发自 凹非寺
量子位 报道 | 公众号 QbitAI
强化学习(RL)很强,能训练出会用鸡贼策略的星际宗师级玩家。
△AlphaStar打出cannon rush
但强化学习也很危险,因为它的套路是无限制探索,常常会出现一些疯狂危险的尝试。
但在现实环境中,有些试错是不可接受的。没有人希望看到,AI通过反复撞车来学会避免事故发生。
要让强化学习从虚拟环境走向现实生活,强化学习界的高玩OpenAI说:安全意识要从“小”抓起。
于是,他们开源了Safety Gym。
这是一套具有安全约束的训练环境和工具,能够评估强化学习智能体在训练