针对多轮推理分类问题的软标签构造方法

本文探讨了在非对称博弈中的对手牌类型推理问题,提出了一种基于经验回放的两步软标签生成方法。通过模拟推理进程,模型在训练中使用软标签避免破坏分布的均匀性,确保更准确的决策。研究了独立与依赖情况下软标签的构造策略,适用于多分类神经网络的训练。

Motivation

在非对称博弈中,我们常常要对对手的状态(如持有的手牌类型)进行推理。此类推理问题有两个特点:(1) 虽然存在正确结果,但正确结果往往无法经过一次推理得到。因为随着游戏的进行,才能获得足够的信息 (2) 虽然无法一次性获得正确的结果,但可以基于现有信息推理获得更正确的分布。更正确的分布会有益于我们在接下来的游戏中做出正确决策。

基于这两个特点,我们考虑一个简化的问题:我们想要知道对手持有的(唯一)一张手牌的类型。该问题可以被理解为多分类问题。考虑使用神经网络的情况,由于需要进行多轮推理,参照针对MDP的DQN模型结构,网络的输入将是我们先前推理得到的关于手牌所属类型的概率分布(当前状态),以及得到的新信息(使得状态转移的动作);网络输出基于新信息更新的概率分布(新状态)。训练这个网络需要使用从真实游戏中采集的数据,包括每轮的玩家行为,以及最重要的对手手牌真实值

对于多分类,真实值应当是一个ont-hot向量。它代表着当我们已经拥有足够信息时应当得到的正确推理结果。但当还没有足够信息时,模型在理论上是没有能力推理出这个结果的(除非过拟合)。考虑一般的推理过程,在没有任何信息时,先验分布应当是一个均匀分布或正态分布。随着新信息的获得,这个分布被逐步修正,直至收敛为一个one-hot向量。如果在一开始就想要将它直接变换为one-hot向量,这种dynamics将破坏该分布应有的均匀或正态性,这将得到不准确的新分布,不不利于下一步决策的进行。

Contribution

本文提出了一个基于experience replay的两步过程,以构造适应于当前推理进程的软标签。模型在训练时使用本方法构造的软标签(而非直接使用真实ont-hot标签)以防止训练时产生不合时宜的dynamics。两步过程简述如下:

1. 采集阶段:使用该轮游戏数据中的推理结果和对应真实值(one-hot形式),构造软标签(每步构造一个)

2. 训练阶段:损失函数中分别对软标签和one-hot标签计算loss,并取min作为损失函

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值