风险敏感在线规划与深度神经网络结构优化
风险敏感在线规划
在模拟基于在线规划中融入风险敏感性是一个重要的研究方向。为了实现这一目标,我们提出了使用条件风险价值(CVaRα)进行计划评估的方法。
基于CVaRα的计划评估
为了使基于模拟的在线规划具有风险敏感性,我们提出了算法2中的EVAL程序。EVAL程序将当前观察和一个计划作为输入,需要迭代次数I、规划时域H、用于计算CVaRα的α值以及折扣因子γ。具体步骤如下:
Require: P(S|S × A), C : S →R ▷transition model, cost function
Require: I ∈N, H ∈N, α ∈R, γ ∈R
1: procedure EVAL(s ∈S, a ∈AN)
2: C ←[]
3: c ←0
4: for i = 0 →I do
5: for h = 0 →H do
6: s ←P(·|s, ah) ▷execute next action
7: c ←c + γh ∗C(s) ▷accumulate costs
8: end for
9: C ←C ∪c ▷append accumulated costs
10: end for
11: sort C
return CVaRα(C, α)
12: end procedure
这个程序会执行计划a I次,并将每次执行的累积折扣成本存储在一个列表中。随后,对列表进行排序并
超级会员免费看
订阅专栏 解锁全文
2909

被折叠的 条评论
为什么被折叠?



