2016年 AlphaGo [1] 与李世石的世纪对决可谓是开启了近十年来人工智能技术探索和发展的浪潮。在围棋这一人类最经典优美的智力游戏上,传统的搜索算法往往迷失在浩如烟海的搜索空间中,朴素的神经网络设计也难以捕捉复杂多变的决策序列数据分布,但是,巧妙地将二者相结合,化用蒙特卡洛树搜索算法(Monte Carlo Tree Search, MCTS)和神经网络算法各自的优势,就孕育出了媲美甚至超过人类围棋职业棋手水准的 AlphaGo 智能体。而这背后所对应的 MCTS 系列技术流派,也从围棋一路拓展到象棋 [2]、视频游戏 [3]、视频编解码 [4] 和高性能计算 [5] 等等不同决策智能领域,进而成为决策智能领域数据利用率最高,训练稳定性最强的系列算法之一。
决策智能相关业态发展
但另一方面,由于 MCTS 系列技术涉及了多种经典算法的拓展与组合,其运行模块的设计就需要包含多方面的内容,进而导致这样的窘境——即虽然算法的能力在不断进步,但是算法的应用难度却逐年升高。具体来说,其中包含强化学习分布式系统的构建,树搜索算法的高效实现和并行化,经验回放中数据的统一管理与高效增删改查操作的执行,深度神经网络的高效推理与数据并行训练等技术栈。因此,开源社区对于相关算法工具的关注度也日渐水涨船高,相继出现了 KataGo [6]、AlphaZero-General [7]、MuZero-General [8] 等一系列工具项目,不断降低 MCTS 技术的使用门槛和应用开销。不过,已有的开源项目更多偏向于棋类游戏或是入门级示例环境,仍然限制了 MCTS 类算法的应用范围,无法拓展到更多有趣或有意义的用途,研究界最新的技术成果和前沿视角也未能完全融入现有工具,导致相关技术仍然是少数研究者手中的“屠龙之术”。
为了充分发挥 MCTS 系列算法技术的潜力,提升相关技术在各个决策智能领域的易用性与实用价值,上海人工智能实验室开源决策智能平台(OpenDILab)团队开源了 LightZero 项目,致力于打造一统 MCTS 的集大成之术。
欢迎体验LightZero: