一.ETC算法总结
ETC算法探索了每一只臂m次,然后在未来的所有轮次里再利用找到的拥有最大平均奖励的臂
的意思是当
足够大时,
的增长速率与其渐进相等,意味的并不是数值相等,而是增长速率相等。
实际情况选择,由此可见,选探索的次数依赖于总轮数
(时间步长,通常是已知的)和
(次优间隙,通常是未知的)
二.上置信界算法
由板块一可知,ETC算法在选探索的次数的时候,很多情况下,所依赖的次优间隙是未知的,以及探索阶段到利用阶段的转换是突变的,探索每一个臂的次数也是同样的。<