AlphaGo实现论文阅读笔记一

本文探讨了如何利用评估函数与蒙特卡洛树搜索算法来优化游戏AI的决策过程。针对围棋等复杂游戏,通过缩小决策树规模以实现更高效的策略选择。
根据作者的理解:
所有的游戏,如果存在函数,可以对当前的局势进行评估,并给出一个优解(可能是一个最优解或者多个最优解)
那么这样的游戏就可以通过一个树,来找到当前局面的下的最优下法路径。(可以递归的调用。首先估算当前的最优解,然后等待对手应对,接着再找一个最优解,如此循环,直到一方胜利)
只是这样的策略存在问题,对于围棋,这个树的规模在250的150次方,遍历并找到所有最优解基本是不可能的事情了。因此必须从树的广度(250)和深度(150)上面进行剪切,使得树缩小到一个合理的范围来。
深度的解决办法是在某个深度点上面将其子树用一个评估函数来模拟和估值。这需要通过机器学习来获取经验。所以必须有足够的经验,来支撑该函数的准确性。
广度的解决办法是采用蒙特卡洛树搜索算法。
蒙特卡洛方法有一个经典的应用,计算π。做一个箱子,在箱底画一个扇形(以箱子边长为半径),然后向里面投小豆子,记录豆子是否落在扇形内。只要豆子足够多,那么落在扇形内的豆子数比上总的豆子数的值正好为:π/4。
解决广度的方法就是类似这样。给定一个点,然后随机在该节点展开的树中进行遍历,然后计算胜负。多进行几次这样的评估,就可以估算出这个点的胜率,最后决定要不要走这一步,因为这样可以非常逼近这点的胜率。但是这样存在缺点:比如李世石第四局,下出了神手,导致计算机未能正确评估该点的胜率。(陷入了一个陷阱。如果李只有这一步才能胜利,导致对于促成该局面的落子胜率都被夸大了。)或者知道,但是没有好的应对办法。
【事件触发致性】研究多智能体网络如何通过分布式事件驱动控制实现有限时间内的共识(Matlab代码实现)内容概要:本文围绕多智能体网络中的事件触发致性问题,研究如何通过分布式事件驱动控制实现有限时间内的共识,并提供了相应的Matlab代码实现方案。文中探讨了事件触发机制在降低通信负担、提升系统效率方面的优势,重点分析了多智能体系统在有限时间收敛的致性控制策略,涉及系统模型构建、触发条件设计、稳定性与收敛性分析等核心技术环节。此外,文档还展示了该技术在航空航天、电力系统、机器人协同、无人机编队等多个前沿领域的潜在应用,体现了其跨学科的研究价值和工程实用性。; 适合人群:具备定控制理论基础和Matlab编程能力的研究生、科研人员及从事自动化、智能系统、多智能体协同控制等相关领域的工程技术人员。; 使用场景及目标:①用于理解和实现多智能体系统在有限时间内达成致的分布式控制方法;②为事件触发控制、分布式优化、协同控制等课题提供算法设计与仿真验证的技术参考;③支撑科研项目开发、学术论文复现及工程原型系统搭建; 阅读建议:建议结合文中提供的Matlab代码进行实践操作,重点关注事件触发条件的设计逻辑与系统收敛性证明之间的关系,同时可延伸至其他应用场景进行二次开发与性能优化。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值