- 博客(1)
- 收藏
- 关注
原创 上限置信度区间算法(UCT)
算法来源文章《Bandit based Monte-Carlo Planning》,06年的ECML。建议想做游戏人机玩家的同学看看。1.多臂老虎机多臂老虎机问题,简单来说,我有很多个老虎机,虽然都是老虎机但它们的中奖率采取的是不同的概率分布,现在我希望在有限次的摇臂过程中,获得最大的收益,我该怎么做呢?最简单的想法肯定是,我对每一个老虎机都摇N次,根据大数定律,频率最终会等于概率。然后我就...
2020-04-25 03:56:42
6481
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人