
机器学习理论
文章平均质量分 84
新之
这个作者很懒,什么都没留下…
展开
-
机器学习11-神经网络综合运用
小结一下使用神经网络时的步骤: 网络结构:第一件要做的事是选择网络结构,即决定选择多少层以及决定每层分别有多少个单元。第一层的单元数即我们训练集的特征数量。最后一层的单元数是我们训练集的结果的类的数量。如果隐藏层数大于 1,确保每个隐藏层的单元个数相同,通常情况下隐藏层单元的个数越多越好。我们真正要决定的是隐藏层的层数和每个中间层的单元数。训练神经网络: 1. 参数的随机初始化原创 2017-04-08 16:28:40 · 618 阅读 · 0 评论 -
机器学习10-神经网络反向传播算法
一,神经网络的代价函数 首先引入一些便于稍后讨论的新标记方法:假设神经网络的训练样本有 m 个,每个包含一组输入 x 和一组输出信号 y,L 表示神经网络层数,Sl 表示每层的 neuron 个数(SL 表示输出层神经元个数),SL 代表最后一层中处理单元的个数。将神经网络的分类定义为两种情况:二类分类和多类分类,二类分类:SL=1, y=0 or 1 表示哪一类;K 类分类:SL原创 2017-04-08 02:22:27 · 901 阅读 · 0 评论 -
机器学习09-神经网络表述
一,为什么使用神经网络 我们之前学的,无论是线性回归还是逻辑回归都有这样一个缺点,即:当特征太多时,计算的负荷会非常大,下面是一个例子:当我们使用 x1、x2 的多次项式进行预测时,我们可以应用的很好。之前我们已经看到过,使用非线性的多项式项,能够帮助我们建立更好的分类模型。假设我们有非常多的特征,例如大于 100 个变量,我们希望用这 100 个特征来构建一个非线性的多原创 2017-04-07 16:51:57 · 848 阅读 · 0 评论 -
机器学习15-k-均值算法表述
一,无监督学习简介 在这个博文中,我将开始介绍聚类算法。这是我们学习的一个非监督学习算法。我们将要让计算机学习无标签数据,而不是此前的标签数据。那么,什么是非监督学习呢?在本系列博文的一开始,我曾简单的介绍过非监督学习,然而,我们还是有必要将其与监督学习做一下比较。在一个典型的监督学习中,我们有一个有标签的训练集,我们的目标是找到能够区分正样本和负样本的决策边界,在这里的监督学习中原创 2017-04-19 09:56:14 · 1065 阅读 · 0 评论 -
机器学习12-支持向量机的数学上定义
一,代价函数的优化 到目前为止,你已经见过一系列不同的学习算法。在监督学习中,许多学习算法的性能都非常类似,因此,重要的不是你该选择使用学习算法 A 还是学习算法 B,而更重要的是,应用这些算法时,所创建的大量数据在应用这些算法时,表现情况通常依赖于你的水平。比如:你为学习算法所设计的特征量的选择,以及如何选择正则化参数,诸如此类的事。还有一个更加强大的算法广泛的应用于工业界和学原创 2017-04-16 14:08:56 · 507 阅读 · 0 评论 -
机器学习13-支持向量机大边界的直观理解
人们有时将支持向量机看作是大间距分类器。在这一部分,我将介绍其中的含义,这有助于我们直观理解 SVM 模型的假设是什么样的。 这是我的支持向量机模型的代价函数,在左边这里我画出了关于 z 的代价函数 cost1(z),此函数用于正样本,而在右边这里我画出了关于 z 的代价函数 cost0(z),横轴表示 z,现在让我们考虑一下,最小化这些代价函数的必要条件是什么。如果你有一个正原创 2017-04-16 14:41:50 · 1591 阅读 · 0 评论 -
机器学习14-支持向量机大边界的数学原理
在本篇博文中,我将介绍一些大边界分类背后的数学原理。你将对支持向量机中的优化问题,以及如何得到大边界分类器,产生更好的直观理解。 首先,让我来给大家复习一下关于向量内积的知识。假设我有两个向量,u 和 v 我将它们写在这里。两个都是二维向量,我们看一下,uT v 的结果。u T v 也叫做向量 u 和 v 之间的内积。由于是二维向量,我可以将它们画在这个坐标系上。我们说,这就是向原创 2017-04-17 09:54:55 · 1615 阅读 · 0 评论 -
机器学习08-正则化
一,为什么要使用正则化 到现在为止,我们已经学习了几种不同的学习算法,包括线性回归和逻辑回归,它们能够有效地解决许多问题,但是当将它们应用到某些特定的机器学习应用时,会遇到过度拟合(over-fitting)的问题,可能会导致它们效果很差。在这篇博文中,我将为你解释什么是过度拟合问题,我们将谈论一种称为正则(regularization)的技术,它可以改善或者减少过度拟合问题。如果我们有非原创 2017-03-30 13:18:53 · 1064 阅读 · 0 评论 -
机器学习07-逻辑回归-代价函数与梯度下降的优化
一,代价函数 针对逻辑回归,本篇博文讲述逻辑回归里的代价函数,并给出优化后的梯度下降算法,读完本篇博文你应该可以使用逻辑回归了。如何拟合逻辑回归模型的参数θ。具体来说,我要定义用来拟合参数的优化目标或者叫代价函数,这便是监督学习问题中的逻辑回归模型的拟合问题。 对于线性回归模型,我们定义的代价函数是所有模型误差的平方和。理论上来说,我们也可以对逻辑回归模型沿用这个定义,原创 2017-03-29 14:22:41 · 3998 阅读 · 0 评论 -
机器学习06-逻辑回归-分类与决策边界
在这篇博文以及之后博文中,开始介绍分类问题。在分类问题中,你要预测的变量 y 是离散的值,我们将学习一种叫做逻辑回归 (Logistic Regression) 的算法,这是目前最流行使用最广泛的一种学习算法。在分类问题中,我们尝试预测的是结果是否属于某一个类(例如正确或错误)。分类问题的例子有:判断一封电子邮件是否是垃圾邮件;判断一次金融交易是否是欺诈;之前我们也谈到了肿瘤分类问题的例子,区原创 2017-03-28 17:08:28 · 9341 阅读 · 0 评论 -
机器学习04-多变量梯度下降与特征缩放
本篇博文是单变量线性回归与梯度下降的拓展,使之能在正式生产中更好地落地http://blog.youkuaiyun.com/xinzhi8/article/details/64919106 代价函数与梯度下降算法(一)(代价函数又称成本函数)http://blog.youkuaiyun.com/xinzhi8/article/details/64948465 代价函数与梯度下降算法(二)原创 2017-03-23 23:30:44 · 2119 阅读 · 0 评论 -
机器学习03-代价函数与梯度下降算法(二)
在阅读这篇博文之前你需要了解的数学知识:1,误差:本篇用平方差误差公式。2,函数的收敛性:当函数趋向无穷大或无穷小,或某个具体数值时,该函数总是逼近某个值,这就是函数的收敛性。3,导数:导数的数学意义就是这个点的斜率。4,矩阵。 在《机器学习笔记02-代价函数与梯度下降算法(一)》中我们谈到代价函数:而在本篇博文中,我们将讨论如何原创 2017-03-22 21:35:22 · 3281 阅读 · 0 评论 -
机器学习笔记02-代价函数与梯度下降算法(一)
在阅读这篇博文之前你需要了解的数学知识:1,误差:本篇用平方差误差公式。2,函数的收敛性:当函数趋向无穷大或无穷小,或某个具体数值时,该函数总是逼近某个值,这就是函数的收敛性。3,导数:导数的数学意义就是这个点的斜率。4,矩阵。一,模型表示 我们的第一个学习算法是线性回归算法。这篇博文你将会使你了解监督学习过程完整的流程。让我们通过一个例子来开始:这个例原创 2017-03-22 14:36:36 · 4561 阅读 · 0 评论 -
PCA算法原理与详细注解
http://blog.codinglabs.org/articles/pca-tutorial.html这篇博文非常详细的介绍了PCA算法的过程,但对数学基础较薄弱人来说,看的有些费劲。本篇博文从一个刚接触PCA算法小白的角度学习PCA算法,希望能帮助到你。整体认知:PCA算法就是一个降维算法,比如10维数据降到7维数据,2维数据降到1维数据。通过降维,方便数据计算。在图像上更有直观原创 2017-06-05 15:50:50 · 2225 阅读 · 0 评论 -
机器学习18-XGBoost的推导过程
一,对随机森林的重新思考 随机森林的每个决策树由随机样本数,随机样本特征,通过信息熵的度量来确定,可以说各个决策树之间是相互独立的,每个树只是在某个分类方向上具有优势(弱分类器),将具有优势的这些树组成森林,即可生成随机森林,从而达到分类的目的。但是如果我想对随机森林进一步提升准确率,应该采取什么策略呢?有以下2个方向: 1,决策树。 假定当前得到m-1颗决策树,可以根据原创 2017-06-19 16:29:52 · 1700 阅读 · 1 评论 -
机器学习17-随机森林中的细节点(更新中)
一,特征连续如何选择分割点1,根据样本平均数分割,取特征的最大值减去最小值,再除以N份,求每一份的信息熵2,根据样本类别分割,将样本投影在特征上分出N类别,在每个类别中取一个点,或中值,或平均值等,然后算熵3,(推荐)随机取点:在最大值与最小值中随机取个点,取N次,算每次熵。二,样本不均衡的常用处理方法假定样本A的数目比B类多,且严重不平衡。样本本身的不均衡,如信用卡欺原创 2017-06-15 13:53:25 · 1076 阅读 · 0 评论 -
机器学习16-熵与随机森林
熵与随机森林一,熵熵是描述系统混乱的量,熵越大说明系统越混乱,携带的信息就越少,熵越小说明系统越有序,携带的信息越多。你要现确定系统,再来描述。你的例子,可以这样理解,同样大的硬盘,熵越大什么坏了的硬盘越多,他可以承载的信息越少,熵越小意味着坏掉的硬盘越少,可以承载的信息量越大。原创 2017-06-15 11:31:15 · 3193 阅读 · 0 评论 -
机器学习19-SVM线性可分公式推导(一)
一 在求取有约束条件的优化问题时,拉格朗日乘子法(Lagrange Multiplier) 和KKT条件是非常重要的两个求取方法,对于等式约束的优化问题,可以应用拉格朗日乘子法去求取最优值;如果含有不等式约束,可以应用KKT条件去求取。当然,这两个方法求得的结果只是必要条件,只有当是凸函数的情况下,才能保证是充分必要条件。KKT条件是拉格朗日乘子法的泛化。之前学习的时候,只知道直接应原创 2017-06-22 12:43:26 · 1629 阅读 · 0 评论 -
机器学习笔记01-介绍(introduction)
一,什么是机器学习 第一个机器学习的定义来自于 Arthur Samuel。他定义机器学习为,在进行特定编程的情况下,给予计算机学习能力的领域。Samuel 的定义可以回溯到 50 年代,他编写了一个西洋棋程序。这程序神奇之处在于,编程者自己并不是个下棋高手。但因为他太菜了,于是就通过编程,让西洋棋程序自己跟自己下了上万盘棋。通过观察哪种布局(棋盘位置)会赢,哪种布局会输,久而久之原创 2017-03-21 21:07:27 · 1035 阅读 · 0 评论