
机器学习算法
LoveChris_LL
这个作者很懒,什么都没留下…
展开
-
强化学习算法SAC的学习探究及基于百度PARL的实战
本文要点:SAC算法的理解 基于百度飞桨PARL的算法实战 个人学习心得 参考文献及学习资源1. SAC算法的理解 SAC即SoftActor-Critic(柔性致动/评价),它是一种基于off-policy和最大熵的深度强化学习算法,其由伯克利和谷歌大脑的研究人员提出。作为目前高效的model-free算法,SAC是深度强化学习中对于连续动作控制的又一经典algorithm,十分适用于真实世界中的机器人任务学习。 SAC基于最大熵强化学习框架,其中的熵增目标...原创 2020-07-24 19:36:50 · 2723 阅读 · 0 评论 -
强化学习算法研究与应用参考资料(不断更新中)
1. SACSAC是深度强化学习中对于连续动作控制的又一经典algorithm。近期简单的看了一下SAC算法的思想,先把当前的资料整理一波,便于进一步学习。后续再作进一步更新1.1文章讨论SAC强化学习算法 SACopenAI-soft actor-criticSoft Actor-Critic 论文笔记最前沿:深度解读Soft Actor-Critic 算法SAC Algorithms and Applications 附可复现代码知乎文章SAC全新的强化学习算法:柔性致动/评价(so原创 2020-07-24 13:54:01 · 374 阅读 · 0 评论 -
K-means与EM的关系
首先回到K-means聚类初始问题,我们目的是将样本分成K个类,其实说白了就是求一个样本例的隐含类别y,然后利用隐含类别将x归类。由于我们事先不知道类别y,那么我们首先可以对每个样例假定一个y吧,但是怎么知道假定的对不对呢?怎样评价假定的好不好呢?我们使用样本的极大似然估计来度量,这里就是x和y的联合分布P(x,y)了。如果找到的y能够使P(x,y)最大,那么我们找到的y就是样例x的最佳类别了...转载 2018-08-16 16:33:48 · 1049 阅读 · 0 评论