
强化
文章平均质量分 67
yukai08008
这个作者很懒,什么都没留下…
展开
-
Python 运筹优化16 MDP解读
继续,MDP, 马尔科夫决策过程。我发现chat4o上线后有所变化(即使是原来的3.5),感觉逻辑更有条理和清晰,回复也更详细了。原创 2024-05-22 10:59:53 · 350 阅读 · 0 评论 -
Python 运筹优化15 NN with Bayesian Approximation解读
继续 Contextual Bandits。原创 2024-05-21 13:48:02 · 321 阅读 · 0 评论 -
Python 运筹优化14 RegularizedLR解读
继续保持对RL学习的推进状态。上一部分主要是关于MAB的,只考虑了单步策略。另外就是从决策的角度上,比较简单,没有做细分。而CMAB(Contextual MAB)会考虑上下文信息。对我来说,MAB更像是一个简单规则,而CMAB则是一个复杂规则(由模型作出一个综合评估)。原创 2024-05-20 11:36:59 · 412 阅读 · 0 评论 -
Python 运筹优化13 Thompson Sampling 解读
这部分应该是Multi-Armed Bandit的最后一部分了。原创 2024-05-14 14:01:57 · 977 阅读 · 0 评论 -
Python 运筹优化12 eps greedy 解读
主要的精华部分在这一段,有点像拒绝采样。eps就是选择的不确定性,通过这个来进行随机游走。原创 2024-05-13 13:29:31 · 718 阅读 · 0 评论 -
Python 运筹优化11 BernoulliBandit 解读
以广告点击的案例继续MultiArmed Bandit的学习。原创 2024-05-11 09:54:25 · 498 阅读 · 0 评论 -
Python 运筹优化10 Multi-armed bandits 解读
优化、强化是我下一阶段的主要内容。开始简单的对一些样例进行学习和分析。原创 2024-05-10 09:53:43 · 181 阅读 · 0 评论