每个像素点都有0-255种可能取值,256的84*84*4次幂表示4张图全部像素点的总共可能性取值。说明如果全部像素点都拿来做state,那Q-table就太大了。
可不可以借助神经网络来做?
开发:每次按贪心的选择去走最好的一个方向。但是要让网络泛化能力更强,因为神经网络有时会过拟合,所以要加上一些探索,使得网络能够去发现一些新的东西。
例如贪心为10%,那么它有90%按正常去走,10%按随机去走。
每个像素点都有0-255种可能取值,256的84*84*4次幂表示4张图全部像素点的总共可能性取值。说明如果全部像素点都拿来做state,那Q-table就太大了。
可不可以借助神经网络来做?
开发:每次按贪心的选择去走最好的一个方向。但是要让网络泛化能力更强,因为神经网络有时会过拟合,所以要加上一些探索,使得网络能够去发现一些新的东西。
例如贪心为10%,那么它有90%按正常去走,10%按随机去走。