桌游玩的好也能发NeurIPS!当深度学习撞上阿瓦隆!

麻省理工和哈佛大学的研究者将深度学习应用到推理桌游阿瓦隆中,开发出DeepRole算法,通过结合CFR算法和价值神经网络,让AI在阿瓦隆游戏中表现出超越人类玩家的智慧。DeepRole不仅能在游戏中与人类智能地配合,还能提供可解释的获胜概率,展示了在多玩家隐藏角色游戏中的潜力。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在遥远神秘的阿瓦隆,正义与邪恶展开激烈的争斗。

亚瑟王手下的圆桌骑士派西维尔率队完成三次艰巨的任务,然而在众多的人选中隐藏着邪恶的力量,为了避免失败,他需要挑选出绝对忠诚的伙伴帮助他尽快完成任务。

在这里插入图片描述

梅林:阿瓦隆永远的智者。他能分辨出邪恶阵营每位成员的真实身份,唯一的视野盲点就是——黑老大莫德雷德。虽然梅林能够看到种种危机,但他只能透过隐晦的暗示将信息传递给圆桌骑士派西维尔,因为这位智者的安危关乎着正义的存亡延续。

在月之暗面,莫甘娜、黑老大、奥伯伦、刺客和爪牙们已经忍不住要露出嗜血的笑容……邪恶力量正在阴暗的角落伺机待发!

正义与邪恶的对决,就在此刻!

输赢规则
好人方的目标:赢得三局任务的胜利,并隐藏真正的梅林。
坏人方的目标:让三局任务失败,或者找到真正的梅林进行刺杀,刺杀成功则赢得游戏…

进入正题

继在CVPR 2019上用GAN烤披萨之后,麻省理工再次祭出大杀器,联合哈佛大学将深度学习用在了推理游戏“阿瓦隆”上,并被正在进行的NeurIPS 2019收录,在本周三以Spotlights的形式进行了演讲!可以说在逗逼之路上一去不复返。

文章概述

Finding Friend and Foe in Multi-Agent Games

Jack Serrino、Max Kleiman-Weiner、David C. Parkes、Joshua B. Tenenbaum

论文下载地址:
https://arxiv.org/pdf/1906.02330v1.pdf
演讲ppt地址:
https://neurips.cc/media/Slides/nips/2019/westballc(11-15-50)-11-16-05-15760-finding_friend_.pdf

近年来,Go,Poker和Dota等游戏代理商在AI方面都取得了突破性进展。但是目前的算法都无法应用于”狼人杀”,“阿瓦隆”这种隐藏角色的游戏。于是乎,DeepRole算法便应运而生,这是一种多主体强化学习代理,针对“抵抗者:阿瓦隆”桌游,将反事实后悔最小化(counterfactual regret minimization,CFR)与通过游戏自身训练的深层价值网络结合在一起。将演绎推理集成到向量形式的CFR中,以对联合信念进行推理,并推断出部分可观测到的行为。研究人员通过产生可解释的获胜概率表示形式的约束来增强深层价值网络。结果表明:DeepRole不管是作为合作伙伴还是竞争对手方面都胜过人类玩家。

研究背景

没有社会价值的研究不是好研究!研究者们苦口婆心的表示:合作使人共同进步!但是,合作具有挑战性,因为它根植于竞争激烈的世界中,多方利益交织,大家往往会互相猜忌:谁将与我合作,我需要提防谁?无论是您上幼儿园的第一天还是您在证券交易所的第一天。弄清楚与谁合作和保护自己免受攻击是一个根本的挑战。这项挑战的核心在于,有关与谁合作的信息通常嘈杂且含糊。因为我们一般仅仅是通过他人的行动来间接获得此信息。而一些具有高智商和带有欺骗意图的老手的可以故意隐瞒他们的不合作意图,并为自己的利益而显得合作。这样的对手使沟通变得充满挑战!!

在这里插入图片描述

多主体强化学习(multi-agent reinforcement learning,RL)尚未解决这一挑战。尤其是,信息不完善的两人零和游戏(例如扑克)中令人印象深刻的结果并非直接适用于合作不明确的问题。在扑克solo中,由于整个游戏过程是严格对抗性的,因此没有机会与他人进行实际协调或合作。而诸如Dota推塔之类的游戏,则采用的是相反的模式:团队成员完全地相互协作以与其他团队竞争。但是这两种模式都没有关注到团队成员间的猜忌。DeepRole也是一种多主体强化学习算法,它可以解决学习与谁合作以及如何合作的问题。

抵抗者:

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值