深度学习和机器学习
文章平均质量分 65
深度学习和机器学习知识
perfect_god
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
TSP问题的遗传算法实现
旅行商问题(Traveling Salesman Problem, TSP),又译为旅行推销员问题、货担郎问题,简称为TSP问题,是最基本的路线问题。假设有n个可直达的城市,一销售商从其中的某一城市出发,不重复地走完其余n-1个城市并回到原出发点,在所有可能的路径中求出路径长度最短的一条。TSP问题是组合数学中一个古老而又困难的问题,也是一个典型的组合优化问题,现已归入NP完备问题类。以N个节点的TSP(旅行商问题)问题为例,应用遗传算法进行求解,求出问题的最优解。原创 2023-01-05 17:31:52 · 2342 阅读 · 0 评论 -
actor-critic methods(价值学习和策略学习的结合)
输入为a和s,s用conv,a用dense得到各自feature,然后拼接起来,再用全连接层得到一个实数,这就是在s的情况下,做出动作a的分数,可以判断在s的情况下,做出动作a的好坏。输入为状态s,conv卷积层,dense一个或多个全连接层,softmax激活函数。策略网络训练π函数,θ为策略网络的参数。价值网络训练q函数,w为价值网络的参数。这两幅图就是对算法的图解,其实就是两个算法的不断使用,思路和算法上面都写过了。critic是价值网络,给动作打分,可认为是裁判。学习这两个神经网络。......原创 2022-08-01 11:36:33 · 657 阅读 · 0 评论 -
深度学习-策略学习
J(θ)表示以S为随机变量对V函数进行期望,得到只和θ有关的平均状态价值函数,也就是可以利用J(θ)得到以θ为随机变量,与s无关,找到最好的θ参数,得到与s无关时最大的J(θ)。可以把Qπ挪到右边是因为这里假设Qπ与θ无关,而实际其实是有些关联的,所以这里不太严谨,挪到右边是为了让我们学明白点,好理解点。第二种在连续的时候用,但是由于做积分不太可能,因为近似出的π函数太复杂了,所以用蒙特卡洛近似近似出该积分。如果a离散,则可以直接用,但是一般不行,所以一般用蒙特卡洛近似。如何令策略网络越来越好?...原创 2022-07-30 23:56:54 · 551 阅读 · 0 评论 -
深度学习-强化学习-价值学习
深度学习中价值学习的内容总结原创 2022-07-30 17:10:02 · 357 阅读 · 0 评论 -
记录我的一些三层神经网络知识
阿巴阿巴原创 2022-07-21 12:26:36 · 231 阅读 · 0 评论 -
深度学习-强化学习专业术语解释
强化学习专业术语原创 2022-07-29 21:52:23 · 1844 阅读 · 1 评论
分享