平均场Q学习与二维伊辛模型
1. 一维伊辛模型回顾与二维拓展
在解决一维伊辛模型时,我们运用邻域Q学习方法取得了不错的效果。运行训练循环并绘制网格后,能看到损失图和伊辛模型网格图。从损失图中可发现,各智能体的损失在约30个epoch左右下降并趋于平稳;网格图则显示电子聚集成同向排列的区域,比初始的随机分布有了很大改善,这表明多智能体强化学习(MARL)算法成功解决了一维伊辛模型问题。
然而,当我们将问题拓展到二维伊辛模型时,会面临新的挑战。在一维情况下,我们仅考虑每个智能体的左右邻居,将联合动作空间从 $2^{20}=1,048,576$ 维的向量缩减到 $2^2 = 4$ 维,易于处理。但在二维网格中,每个智能体有8个邻居,联合动作空间变为 $2^8 = 256$ 维;若拓展到三维伊辛模型,邻居数量增加到26个,联合动作空间达到 $2^{26} = 67,108,864$ 维,计算变得难以处理。因此,我们需要进行更大程度的简化近似。
2. 平均场近似与平均场Q学习
电子的自旋主要受其最近邻居磁场的影响,且磁场强度与距离源的平方成反比,所以忽略远处电子是合理的。同时,当两个磁铁靠近时,它们的合成磁场可近似看作两者磁场之和。基于此,我们可以不向Q函数提供每个相邻电子的自旋信息,而是提供它们自旋的总和。
为了让机器学习算法更好地工作,我们通常会对数据进行归一化处理,使其在固定范围内,如 $[0,1]$。因此,我们将自旋总和除以所有元素的总值,得到一个归一化向量,其元素在 $[0,1]$ 之间,总和为1,这类似于一个概率分布。这种方法被称为平均场近似,在我们的场景中即平均场Q学习(MF - Q)。其核心思想是为每个电子计算一个平均磁场,而非提供每个邻居的
平均场Q学习与二维伊辛模型
超级会员免费看
订阅专栏 解锁全文

25

被折叠的 条评论
为什么被折叠?



