网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!
ϕ
(
s
t
)
,
t
=
1
,
2
,
.
.
.
,
N
\phi(s_t),t=1,2,…,N
ϕ(st),t=1,2,…,N,产生一个Random Agent,迭代次数
g
=
0
g=0
g=0,随机设定一个
w
w
w,奖赏函数
r
ϕ
=
w
T
μ
(
π
)
r_\phi=w^T\mu(\pi)
rϕ=wTμ(π)
2. 利用
ϕ
\phi
ϕ提取专家轨迹的特征
ϕ
(
s
1
(
E
)
)
,
ϕ
(
s
2
(
E
)
)
,
.
.
.
,
ϕ
(
s
N
(
E
)
)
\phi(s_1{(E)}),\phi(s_2{(E)}),…