高级算法在游戏AI与磁悬浮列车控制中的应用
1. 游戏AI算法:高级演员-评论家算法(AAC)
在训练《星际争霸II》游戏AI时,涉及诸多关键技术与优化策略,以提高AI的性能和学习效率。
1.1 环境特征处理
游戏环境中提取的特征层,其数值分布不均,部分在小游戏中作用不大。为更好更快地训练神经网络,需对这些特征层进行重新处理。
- 特征层分类 :
- 目录值层 :包含玩家ID、友方、可见性、爬行等,数值通常较小。
- 标量值层 :有单位类型、单位生命值、地形等级和护甲值等。
- 处理步骤 :
1. 层选择 :依据玩家先验知识,选择更有用的地图特征层,舍弃无用层。小地图特征层选可见性、相机、玩家ID、玩家相对位置、选中状态;屏幕特征层选可见性、玩家ID、玩家相对位置、选中状态、生命值、能量。
2. 数值处理 :目录值层将值标准化到[0, 1]区间;标量值层设阈值为最大值的一半,用Sigmoid函数将值分类转换为状态值,如单位生命值超50%为健康,否则为虚弱。处理后所有层值范围压缩到[0, 1]。
1.2 动作表示
《星际争霸II》指令集庞大,每个动作通过接口分为空间动作和非空间动作两部分输出到环境。整个动作表示为:A = (Anon−spatial, [Aadd, Aspatial])。
- 空间动作(Spatial Act
超级会员免费看
订阅专栏 解锁全文
1706

被折叠的 条评论
为什么被折叠?



