深度反事实价值网络与指代表达生成算法分析
在自然语言生成和博弈算法领域,有两个重要的研究方向值得深入探讨,一是深度反事实价值网络的编码与优化,二是指代表达生成(REG)的搜索算法改进。下面将详细介绍这两方面的研究内容。
深度反事实价值网络的编码与评估
在深度反事实价值网络中,DeepStack在重新求解步骤中虽未使用显式的卡牌抽象,但反事实价值网络的输入和输出编码基于卡牌抽象,这可能会引入潜在问题。
- 编码问题
- 输入编码 :输入玩家分布在训练前被映射到多个桶中,训练算法只能了解桶概率分布,而不是确切的手牌分布。由于是多对一映射,算法可能无法区分不同情况,导致无法完美拟合训练集。
- 输出编码 :多个手牌的反事实价值被聚合为一个桶的反事实价值,可能会损失精度。
我们将由CFR求解器计算的原始手牌反事实价值与使用基于抽象编码后的反事实价值之间的差异称为编码误差。使用均方误差和Huber损失(δ = 1)来衡量原始反事实价值与桶反事实价值之间的差异。
-
编码方式
- E[HS2]抽象 :在最后一轮下注中,手牌强度(HS)值是对抗均匀对手手牌分布时的获胜概率。在早期轮次,通过对所有可能的卡牌展开的HS值的平方求平均来计算预期手牌强度平方(E[HS2])。该抽象使用E[HS2]值将手牌分组到桶中,有