文章目录
前情提要
上回咱讲到,对于计算机而言,策略可以是很抽象的东西。
或者说得更直白一些。
只要是一个输出能和动作空间形成对应的函数,不管你是一个超级离散的字典,还是神经网络,还是完全随机的东西,都可以是一个策略。
而要在这些五花八门的策略中,找到最优的那个,就需要:
(一)这个策略所用的函数,需要是基本可导的。(其实现在的神经网络,几乎在数学上也是不可导的。但实际操作上,可以认为是可导的)说人话,就是,最好是个深度的神经网络。这玩意儿好啊,可以被求导,也可以被优化。
(二)找到一种机制,去更新一个策略到一个更优的策略。
为此,我们首先得能评价两个策略,哪个更好,哪个更坏。
例如,有人会在大盘低于3000点的时候,开始定投。这是一种策略。
有人会在大屏低于2900时,才开始定投。这也是一种策略。
但从字面来看,其实我们很难就笃定,哪一个策略一定是比另一个更好的。