机器学习
文章平均质量分 87
蚍蜉_
如果,您希望更容易地发现我的新博客,不妨关注一下我【关注】
如果,您对我的博客内容感兴趣,请继续关注我的后续博客,我是【Allen】
本站内文章为网络自学笔记,个别内容及图片引用自网络,如有侵权请联系本人,本人将会在第一时间删除侵权内容。欢迎各位博友评论交流 !
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
吴恩达机器学习笔记(一),含作业及附加题答案链接
吴恩达机器学习笔记(一)监督学习非监督学习代价函数cost function梯度下降和线性回归gradient descent and linear regression梯度下降多变量梯度下降特征标准化变量归一法feature normalization关于alpha学习速率正规方程normal原创 2017-12-09 01:56:45 · 19648 阅读 · 3 评论 -
Actor Critic学习笔记
什么是Actor-CriticActor-Critic 的 Actor 是 Policy Gradients,因为他直接根据概率进行选择所以能够很容易选出当前最优解,而Q-learning存在ϵ−greedy\epsilon-greedyϵ−greedy选择,不能及时选择出当前最优解.但是 Policy Gradients 容易陷入局部最优解,而且PG是回合更新,降低了学习效率。 Actor C...原创 2018-11-10 10:19:52 · 889 阅读 · 0 评论 -
策略梯度(Policy gradient)学习心得
以前的博文介绍了Q-learning与DQN的相关知识与实例(https://blog.youkuaiyun.com/allen_li123/article/details/83621804)Q-learning与DQN都属于基于值函数的深度强化学习,因为其输出都是关于动作的值,然后再根据ϵ−greedy\epsilon-greedyϵ−greedy贪婪策略进行动作采取但是如果动作是一个连续性动作,他的值...原创 2018-11-07 02:22:23 · 4325 阅读 · 3 评论 -
论文笔记-Deteministic Policy Gradient Algorithms
Deteministic Policy Gradient Algorithms文章目录Deteministic Policy Gradient Algorithms论文干货on-policy与off-policy论文干货论文论证了确定性策略明显优于随机性策略在高维动作空间问题中。策略梯度算法广泛运用在深度强化学习中的连续控制领域。策略梯度算法的主要意思是用参数概率分布πθ(a∣s)=P[...原创 2018-11-03 17:48:02 · 627 阅读 · 0 评论 -
DQN解决cartpole原理
标签(): 机器学习文章目录@[toc]为什么需要DQNDQN与Q学习?DQN算法更新附录(莫凡代码)当学习状态空间很大,例如围棋的学习中,由于状态空间过大导致Q表远远超过内存,所以在复杂学习情况下Q表更新并不适用。取而代之的是用神经网络当做Q表使用,第一种神经网络是输入状态和动作,输出动作的评价值,第二种神经网络是输入状态输出所有动作和该动作的评价值,再从中选取评价高的动作进行决策。算法...原创 2018-11-01 15:52:19 · 2387 阅读 · 0 评论 -
深度学习项目实战--对于评论的情感分析
标签: 机器学习该项目通过分析影评进行判断该评价的情感方向项目准备:实现思想实现效果现在开始我们的项目代码1.首先我们要读入影评与情感标签2.引入需要使用的库3.实现神经网络最后开始对数据进行学习通过测试对学习效果进行评定将以上代码复制粘贴即可运行,可以看到学习效果,准确率高达85%并且该代码对数据进行了清洗与筛选,对神经网络的结构做了结构优化将100条...原创 2018-03-06 03:58:41 · 6350 阅读 · 17 评论 -
优达学城-神经网络之预测共享单车使用情况 代码分析
优达学城-神经网络之预测共享单车使用情况 代码分析标签(): 机器学习代码来自于优达学城深度学习纳米学位课程的第一个项目 https://cn.udacity.com/course/deep-learning-nanodegree-foundation–nd101-cn通过这个项目可以从单车的近两年使用数据用神经网络预测以后的共享单车是使用情况预先准备配置环境参照优达学城提供...原创 2018-03-02 21:20:37 · 4261 阅读 · 5 评论 -
优达学城-深度学习笔记(一)
优达学城-深度学习笔记(一)标签: 机器学习优达学城-深度学习笔记一一 神经网络简介最大似然概率交叉熵Cross entropy1交叉熵代码实现2多类别交叉熵对数几率回归的误差函数cost function梯度下降代码神经网络2 反向传播二梯度下降的神经网络梯度下降代码实现反向传播示例反向传播代码实现三训练神经网络正则化dropoutKeras 中的其他激活函数K原创 2018-02-09 17:07:50 · 3298 阅读 · 0 评论 -
风格迁移项目实战教程
风格迁移项目实战教程原创 2018-02-03 01:39:16 · 1968 阅读 · 0 评论 -
吴恩达机器学习学习笔记(四)(附作业代码注释)
吴恩达机器学习学习笔记(四)标签: 机器学习吴恩达机器学习学习笔记四代价函数与反向传播Costfunction and Backpropagation一代价函数1逻辑分类的评价函数神经网络的评价函数1note反向传播note正向传播二反向传播应用1参数展开Unrolling Parameters2梯度检测Gradient Checking3随机初始化R原创 2018-01-14 00:36:04 · 2489 阅读 · 0 评论 -
吴恩达机器学习笔记(五)
吴恩达机器学习笔记(五)标签: 机器学习吴恩达机器学习笔记五评估假设Evaluating a Hypothesis1测试集误差计算方法2训练集交叉验证集与测试集TrainValidationTest Sets3判断欠拟合与过拟合4选择合适的正则化lambda5学习曲线6优化模型方法构建复杂的机器学习模型1偏斜类问题的评估2权衡查准率与召回率1.评估假设(Evaluating a原创 2018-01-22 00:18:19 · 887 阅读 · 0 评论 -
吴恩达机器学习笔记(三)
吴恩达机器学习笔记(三)标签(空格分隔): 机器学习吴恩达机器学习笔记三神经网络1神经网络的数学表达2前向传播forward propagation3神经网络简单示例AND多元分类问题重要矢量化公式1.神经网络神经网络分为输入层,输出层,隐藏层 输出层是对输入层的运算结果 在输入层中可能会添加偏置单元x0x_0(bios unit)原创 2018-01-12 20:45:51 · 828 阅读 · 0 评论 -
吴恩达机器学习笔记(二)(附编程作业链接)
吴恩达机器学习笔记(二)标签: 机器学习吴恩达机器学习笔记二一逻辑回归logistic regression逻辑函数S型函数logistic function and sigmoid function决策边界decision boundary代价函数cost function代价函数的简化Simplified Cost Function梯度下降Gradient Descent更快的优化原创 2017-12-11 03:52:42 · 3040 阅读 · 1 评论 -
ddpg解决swing-up问题,超详细附代码
标签: 机器学习一. 什么是DDPG(deep deterministic policy gradient)DDPG在continuous control with deep reinforcement learning论文中提出并作出了详细的解释在论文中比较重要的信息有以下:DQN无法处理高维输出,并且只能输出离散值,因为一些动作维度结构可能包括一些信息,所以在连续控制问题上可能表现很...原创 2019-01-27 09:47:27 · 3334 阅读 · 1 评论
分享