27、智能决策系统的构建与优化-优快云博客

本文链接：https://blog.youkuaiyun.com/spice/article/details/150753595

智能决策系统的构建与优化

1. 持续学习策略

持续学习是一种更好且更稳健的方法。可以通过学习率 α（取值范围在 0 到 1 之间）来逐步优化对策略预期奖励的估计。更新策略价值的公式如下：
[
\text{Value(Strategy)} \leftarrow (1 - \alpha) \times \text{Value(Strategy)} + \alpha \times \text{Gain}
]
对学习率 α 取值的解释：
- 当 α = 0 时，表示“从不学习”，保留初始估计值不变。
- 当 α = 1 时，表示“忘记所有已学内容”，用最新观察到的值（即获得的收益）替换之前的估计值。
- α 取值介于 0 和 1 之间时，平衡了上述两种极端情况。α 越接近 0，调整越慢；α 越大，对新观察的反应越快。

通过一个简单的例子验证该过程是否收敛到正确值。假设收益始终为 100，初始估计值为 0，学习率为 0.5，重复更新过程可快速从 0 收敛到 100：

> let vs = Seq.unfold (fun x -> Some(x, 0.5 * x + 0.5 * 100.)) 0.
vs |> Seq.take 20 |> Seq.toList;;
val it : float list =
  [0.0; 50.0; 75.0; 87.5; 93.75; 96.875; 98.4375; 99.21875; 99.609375;
   99.8046875; 99.90234375; 99.95117188; 99.97