简介
腾讯AI Lab 王者荣耀 深度强化学习DRL 解决MOBA 1v1游戏
-
使用元组(S,O,A,P,r,p,y) 表示无限过程有衰减的马尔科夫决策过程
-
S状态空间 O观测空间 A动作空间
-
P:SxA->S状态转移概率 r:SxA->R 奖励函数
-
p0:S->R初始状态的分布 y衰减因子 随机策略pi被影射到(0,1]
-
每个agent的目标都是最大化累积奖励
E [ ∑ t = 0 T γ t r ( s t , a t ) ] E[∑ _{t=0}^T γ^tr(s_t, a_t)]