智能决策系统的构建与优化
1. 持续学习策略
持续学习是一种更好且更稳健的方法。可以通过学习率 α(取值范围在 0 到 1 之间)来逐步优化对策略预期奖励的估计。更新策略价值的公式如下:
[
\text{Value(Strategy)} \leftarrow (1 - \alpha) \times \text{Value(Strategy)} + \alpha \times \text{Gain}
]
对学习率 α 取值的解释:
- 当 α = 0 时,表示“从不学习”,保留初始估计值不变。
- 当 α = 1 时,表示“忘记所有已学内容”,用最新观察到的值(即获得的收益)替换之前的估计值。
- α 取值介于 0 和 1 之间时,平衡了上述两种极端情况。α 越接近 0,调整越慢;α 越大,对新观察的反应越快。
通过一个简单的例子验证该过程是否收敛到正确值。假设收益始终为 100,初始估计值为 0,学习率为 0.5,重复更新过程可快速从 0 收敛到 100:
> let vs = Seq.unfold (fun x -> Some(x, 0.5 * x + 0.5 * 100.)) 0.
vs |> Seq.take 20 |> Seq.toList;;
val it : float list =
[0.0; 50.0; 75.0; 87.5; 93.75; 96.875; 98.4375; 99.21875; 99.609375;
99.8046875; 99.90234375; 99.95117188; 99.97
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



