
机器学习知识总结
恪心
Do all you can to survive, because life is never something you live only for yourself.
展开
-
根据学习曲线判断 偏差方差
根据学习曲线判断 偏差方差这里使用 3 张课程 PPT 一目了然学习曲线 是一个训练与检验误差随着训练集大小而改变的函数偏差: Jtrain(θ) ≈ Jcv(θ), 误差都非常大。是由于模型特征过少,无法拟合数据造成的,通过增加模型特征解决方差: Jcv(θ) >> Jtrain(θ) , 属于过拟合,通过增加数据量解决。补充:代码部分...原创 2019-02-14 21:19:01 · 860 阅读 · 0 评论 -
线性回归算法
我认为自己学习到的线性回归非常简单:输入数据(X,y)。y 是 X 的标签,X 是 m ∗{*}∗ n 的矩阵,m 表示 X 的样本数量,n 是每个样本的特征的数量。有时候为了方便处理,X 是 (n, m) 的矩阵。初始化 θ{\theta}θ 值,指定假设函数 hθ{h_\theta}hθ。代入成本函数 J(θ){J(\theta)}J(θ),成本函数梯度∂J(θ)∂θ{\frac{...原创 2019-02-26 22:12:01 · 284 阅读 · 0 评论 -
学习曲线
这部分内容比较少,虽然是属于上一节偏差方差,但学习曲线是一个独立的小节,就把它单独列出来了。偏差方差内容在另一篇博文中已经叙述过了,就不再这里详细说明。关于偏差方差的解析:https://blog.youkuaiyun.com/qq_38009970/article/details/87857530这部分编程练习:https://blog.youkuaiyun.com/qq_38009970/article/det...原创 2019-02-21 11:49:20 · 345 阅读 · 0 评论 -
诊断偏差与方差
偏差与方差首先以寻找模型最佳多项式次数为例,了解一下什么是偏差和方差如图,当d = 1(多项式次数为1)时,选择的模型并不能很好的拟合样本中的数据(欠拟合),这是高偏差d = 2 时,模型与数据基本拟合。说明多项式次数为 2 是这个模型的最佳多项式次数d = 4 时,模型经过了每一个数据样本,它对训练数据集中的样本拟合的太好了(过拟合),以致于当有新的样本时,它不能拟合新的样本点。通...原创 2019-02-21 11:18:04 · 391 阅读 · 0 评论 -
成本函数 J(θ) 的函数图形------凸函数与非凸函数
凸函数:只有一个局部最低点图源:http://blog.sina.com.cn/s/blog_185fa86010102yp0p.html非凸函数:有多个局部最低点,一个全局最低点。因此 J(θ) 必须为凸函数,如果为非凸函数,就有可能没有取得最小值(上图 红星),而取得局部最小值(黄星)。影响整个系统的性能。...原创 2019-02-20 12:20:23 · 4014 阅读 · 0 评论 -
模型选择与训练集、验证集、测试集
问题描述:在学习模型设计完成后,对模型进行训练,可得到模型参数 θ ,通过假设函数公式:可得到预测值。但怎么知道训练完成的模型性能怎么样呢?也就是说,通过该模型得到的预测值准不准确?有没有办法提高准确度?这就是本节将要解决的问题。模型选择与训练集、验证集、测试集如图所示,将原始数据以 6:2:2 分成 3 份。分别为:训练集、交叉验证集、测试集训练集:训练模型,获得参数 θ交...原创 2019-02-20 12:09:09 · 2437 阅读 · 0 评论 -
梯度下降算法
梯度下降是一个用来求函数最小值的算法,我们将使用梯度下降算法来求出代价函数 J(θ1,θ2){J(\theta_1, \theta_2)}J(θ1,θ2) 的最小值。梯度下降背后的思想是:开始时我们随机选择一个参数的组合 (θ1,θ2,...,θn){(\theta_1, \theta_2, ..., \theta_n)}(θ1,θ2,...,θn) ,计算代价函数,在原来参数组合...原创 2019-02-25 13:42:06 · 271 阅读 · 0 评论 -
假设函数、损失函数、 成本函数
基本概念 假设函数:假设函数用 hθ 表示,并且使用我们选择的模型。对于一个输入数据 x(i),模型预测输出为 hθ(x(i))损失函数:用 L 表示。 将对应于真实数据 y 的预测值 z(hθ) 作为输入,输出 y 与 z 之间的差异。所求的是单个样本之 &n...原创 2019-02-21 20:43:22 · 3126 阅读 · 0 评论 -
特征归一化
初始数据特征比例尺度可能不一样,需要先对数据进行归一化处理。归一化方法求出每列数据的平均值和标准差。每列数据减去相应的平均值后除以标准差。归一化公式其中X是数据,mu是X的平均值,sigma是X的标准差%X是传入的数据mu = mean(X);%求musigma = std(X);X_norm = (X - mu)./sigma;...原创 2019-02-15 21:27:26 · 888 阅读 · 0 评论 -
随机初始化 θ 值
在训练神经网络的时候,如果初始化 θ 值相等,那么每个样本的所占权重就会相同,最后的预测结果也都是一样的。因此随机初始化 θ 值在神经网络中是非常重要的。一种非常有效的随机初始化方法是在 [−ϵinit ,ϵinit ]之间挑选Θ(l) 的值。你应该使用,ϵinit = 0.12.这个范围的值确保参数被保持的很小,并且使学习更有效。% Randomly initialize the weigh...原创 2019-02-15 21:06:18 · 438 阅读 · 0 评论 -
机器学习----知识总结
机器学习----知识总结 这部分是知识大纲,我用链接的形式写出标题,可以从这里直接浏览各部分的知识点。我先用参考地址的目录,会逐渐在目录中添加相应的知识点,也会根据课程学习对目录进行适当的修改。知识总结参考地址:https://gitee.com/WjbStudyLife/stanford-cs-229-machine-learning/tree/master/zh 1 监督学习&am原创 2019-02-15 20:26:44 · 217 阅读 · 0 评论 -
大规模机器学习:对大数据的学习
一:为何不能用之前的梯度下降(批量梯度下降)算法对大数据训练对机器系统做分析的时,如果由 学习曲线得到高方差的曲线模型,就可能需要增加原始数据量来提高系统性能。以线性回归为例,在使用线性回归训练时,需要对图中红框内容进行迭代,求得最佳 Theta 值。红框中所求的时成本函数的梯度,需要对整个数据集求和。数据集如果达到百万级别,Theta 每迭代一次,就需要对百万数据求和一次,整个训练所消耗的...原创 2019-02-14 22:36:12 · 299 阅读 · 0 评论 -
Sigmoid 函数
sigmoid 函数是逻辑回归的预测和输出函数。它的公式定义如下:∀z∈R,g(z)=11+e−z∈[0,1],z∈[−∞,+∞]{\forall z \in R, g(z) = \frac{1}{1+e^{-z}} \in [0, 1], z \in [-\infty, +\infty]}∀z∈R,g(z)=1+e−z1∈[0,1],z∈[−∞,+∞]函数图形如图所示:为什么使用它作为...原创 2019-03-03 20:48:23 · 5343 阅读 · 0 评论