这一次,我们比国外研究者快了一步

AI棋艺新突破
国内团队研发出确定性神经网络,推出连子棋应用,AI落子更接近人类棋手,易于理解和复盘。相比MetaAI等机构的KL正则化搜索,此国产神经网络已应用于商用产品。

刚刚看到“视觉算法”在2021年12月18日(昨天)晚上的23:54分通过微信公众号推送的一篇文章,文章题为“模仿并超越人类围棋手,KL正则化搜索让AI下棋更像人类,Meta&CMU出品”,文章链接为“http://mp.weixin.qq.com/s?__biz=MzU4NjIxODMyOQ==&mid=2247506314&idx=5&sn=1fc828e248d7edb2b4196d9f740754f1&chksm=fdfc37bcca8bbeaa797960d943290abf52544e34c6d63d751d29de4358fa076edebf3121f1a8&mpshare=1&scene=23&srcid=12197nvTt5fCUDZPhg7rqEK9&sharer_sharetime=1639874185880&sharer_shareid=52e6f0e9960b52e11472f205f8f0dd39#rd”。

在这篇文章中提到,AlphaGo下棋不像人类,和AlphaGo对弈过的顶级棋手都有这种感受,他们觉得AI落子经常让人捉摸不透这不仅仅是AlphaGo的问题,许多AI系统无法解释,且难以学习,如果想让AI与人类写作,就不得不解决这个问题。现在,来自Meta AI等机构的研究者们打造出一个能战胜人类顶级棋手、且更容易复盘棋谱的AI,论文名为“Modeling Strong and Human-Like Gameplay with KL-Regularized Search”,他们用人类棋谱训练AI模仿,并让后者超越了人类。

文章中还提到,AlphaGo使用的自我博弈与蒙特卡洛树搜索(MCTS)虽然练就了无比强大的AI,但它的下棋更像凭直觉,而非策略。如果要让AI更像人类,更应当使用模仿学习(Imitative learning),但是这却很难让AI达到人类顶级棋手水准。Meta AI和CMU的研究者发现,加入了KL正则化搜索后,一切都不一样了。AI的落子策略变得与人类棋手更加相似,这就是他们提出的新方法。

以上便是引文所描述的主要内容,更详细的信息可以参考原文,原文中也提供了相应论文的信息和下载地址。

我们同样认为,目前的AI系统普遍存在类似的问题,包括AlphaGo在内的AI在落子时与策略的关联度过小,因而我们研发出了“确定性神经网络”,并基于这种国产神经网络开发了一款连子棋应用“神经网络连子棋”,这款应用已于2021年11月1日起正式上线推广,网址为:www.gnxxkj.com

在神经网络连子棋及其衍生品“神经网络五子棋”的使用过程中发现,我们的AI落子同样与人类棋手更加相似,更容易理解和复盘,与策略的关联度更高(而非凭直觉)。同时,我们还依据这种特性开发和展示了“神经网络五子棋家庭版”与“五子棋等级考试版”,这两款软件更能提现确定性神经网络与人类棋手的相似性。

从时间上来看,我们是11月发布的,而论文是12月发表的;从形态上来说,我们是商用产品,而国外的是研究论文,从论文到商用产品还有一段较长的路程要走;从技术原理和基础上来说,我们的“确定性神经网络”是一款全新的国产神经网络,从基础理论开始进行了全新设计推导论证的一个算法体系,而上述那篇论文只是引入了KL正则化搜素,还有诸多因素需要考虑和验证。另外,我们训练用的是对弈棋局,而论文中用的训练数据是人类棋谱,这也是一个差异。

从以上的诸多方面来看,这一次,我们的研究比Meta AI和CMU的这个团队快了一步,也标志着中国在核心的基础算法层面走出了一大步。

当然了,前述论文中主要测试的是围棋和象棋,而我们主要应用的是连子棋,这个有所差别。另外论文作者已经给出了一定的测试结果统计数据,我们还不清楚他们的测试数据来源、数据量等信息,所以在这些方面还无法去做定量化的对比。

我们的产品目前已经上线,通过用户的参与(从官网或开源网址下载相应应用)和AI自我对弈,我们已经获得了6117组六连子和12033组五连子(五子棋)对弈数据用于学习,训练出的神经网络均达到了11层的深度,而且在上线的这一个多月中,线上供挑战的六连子已经越来越智能,挑战难度越来越大了。相信随着获取到的对弈数据越来越多,随着网络模型训练得越来越全面,神经网络连子棋也将越来越智能,届时我们将会通过一定的方式进行评估并对结果进行统计分析,如果有研究人员对此感兴趣的,也可以联系我们共同评估分析。

文中所提的神经网络连子棋及其开发包(包含案例的完整代码)可在如下地址下载:

官网下载:www.gnxxkj.com

github下载:https://github.com/wangdechang119

gitlab下载:https://gitlab.com/wangdechang119

gitee下载:https://gitee.com/wangdechang119

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

De-Chang Wang

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值