
机器学习
文章平均质量分 73
kk123k
这个作者很懒,什么都没留下…
展开
-
吴恩达机器学习笔记(一)
原创博客,转载请注明出处!第一章比较简单,主要了解几个概念机器学习最主要的两个学习方法:监督学习和无监督学习监督学习是指:我们给算法一个数据集,其中包含了正确答案,我们设法预测连续值的属性无监督学习指:运行一个聚类算法,把不同的个体,归入不同的类简单理解:给定正确的数据,让机器学习预测未知的就是监督学习!相反,丢给你一堆没有所谓的正确答案的数据,让机器学习自己找规律分类,就是无...原创 2018-12-20 16:03:12 · 200 阅读 · 0 评论 -
吴恩达机器学习笔记(十二)
原创博客,转载请注明出处!1、确定执行的优先级巧妙构建一个复杂的机器学习系统的建议!以一个垃圾邮件分类器算法为例进行讨论为了解决这样一个问题,我们首先要做的决定是如何选择并表达特征向量x。我们可以选择一个由100个最常出现在垃圾邮件中的词所构成的列表,根据这些词是否有在邮件中出现,来获得我们的特征向量(出现为1,不出现为0),尺寸为100×1为了构建这个分类器算法,我们可以...原创 2018-12-22 21:37:51 · 347 阅读 · 1 评论 -
吴恩达机器学习笔记(十三)
原创博客,转载请注明出处!1、优化目标在监督学习中,许多学习算法的性能都非常类似,因此,重要的不是你该选择使用学习算法A还是学习算法B,而更重要的是,应用这些算法时,所创建的大量数据在应用这些算法时,表现情况通常依赖于你的水平。比如:你为学习算法所设计的特征量的选择,以及如何选择正则化参数,诸如此类的事。还有一个更加强大的算法广泛的应用于工业界和学术界,它被称为支持向量机(Suppor...原创 2018-12-23 17:14:15 · 343 阅读 · 0 评论 -
吴恩达机器学习笔记(十四)
原创博客,转载请注明出处!1、无监督学习什么是无监督学习?在一个典型的监督学习中,我们有一个有标签的训练集,我们的目标是找到能够区分正样本和负样本的决策边界,在这里的监督学习中,我们有一系列标签,我们需要据此拟合一个假设函数。与此不同的是,在非监督学习中,我们的数据没有附带任何标签,我们拿到的数据就是这样的:在非监督学习中,我们需要将一系列无标签的训练数据,输入到一个算法中,然后我们告...原创 2018-12-23 20:36:54 · 195 阅读 · 0 评论 -
吴恩达机器学习笔记(十五)
原创博客,转载请注明出处!1、目标I :数据压缩开始谈论第二种类型的无监督学习问题,称为降维。有几个不同的的原因使你可能想要做降维。一是数据压缩,后面我们会看了一些视频后,数据压缩不仅允许我们压缩数据,因而使用较少的计算机内存或磁盘空间,它还能让我们加快我们的学习算法。假设我们未知两个的特征:x1长度:用厘米表示;x2:是用英寸表示同一物体的长度。这给了我们高度冗余表示,也许我们想要做...原创 2018-12-24 12:15:04 · 430 阅读 · 0 评论 -
吴恩达机器学习笔记(十六)
原创博客,转载请注明出处!1、问题动机异常检测问题是机器学习算法的一个常见应用。这种算法的一个有趣之处在于:它虽然主要用于非监督学习问题,但从某些角度看,它又类似于一些监督学习问题。举个例子:假想你是一个飞机引擎制造商,当你生产的飞机引擎从生产线上流出时,你需要进行QA(质量控制测试),而作为这个测试的一部分,你测量了飞机引擎的一些特征变量,比如引擎运转时产生的热量,或者引擎的振动等等...原创 2018-12-25 12:09:03 · 227 阅读 · 0 评论 -
吴恩达机器学习笔记(十七)
原创博客,转载请注明出处!1、问题规划引入一些标记的定义: n_u 代表用户的数量 n_m 代表电影的数量 如果用户j给电影 i 评过分则 r(i,j)=1 代表用户 j 给电影 i 的评分是用户 j 的参数向量是电影 i 的特征向量是评价了电影 j 的用户数量2、基于内容的推荐算法在一个基于内容的推荐系统算法中,我们假设对于我们...原创 2018-12-25 16:05:31 · 308 阅读 · 0 评论 -
直观理解EM算法
EM是期望极大算法的简称由两部分组成:E部:求期望;M步:求极大。下面由浅入深直观理解它的概念。 1、先看一个简单的例子假设现在有两枚硬币1和2,,随机抛掷后正面朝上概率分别为P1,P2。为了估计这两个概率,做实验,每次取一枚硬币,连掷5下,记录下结果,如下:很容易地估计出P1和P2,如下:P1 = (3+1+2)/ 15 = 0.4P2= (2+3)/10 = ...转载 2019-01-10 14:49:28 · 1065 阅读 · 0 评论 -
图像特征提取 — LBP算法
原创博客,转载请注明出处!LBP(Local Binary Pattern,局部二值模式)是一种用来描述图像局部纹理特征的算法;它具有旋转不变性和灰度不变性等显著的优点。它是首先由T. Ojala, M.Pietikäinen, 和D. Harwood 在1994年提出,用于纹理特征提取。而且,提取的特征是图像的局部的纹理特征; 1、LBP特征的描述 原始的LBP算子定...原创 2019-01-10 23:46:16 · 1192 阅读 · 0 评论 -
吴恩达机器学习笔记(十一)
原创博客,转载请注明出处!1、决定下一步做什么当我们运用训练好了的模型来预测未知数据的时候发现有较大的误差,我们下一步可以做什么?①获得更多的训练样本——通常是有效的,但代价较大,下面的方法也可能有效,可考虑先采用下面的几种方法。②尝试减少特征的数量③尝试获得更多的特征④尝试增加多项式特征⑤尝试减少正则化程度λ⑥尝试增加正则化程度λ我们不应该随机选择上面的某...原创 2018-12-22 17:28:04 · 264 阅读 · 0 评论 -
吴恩达机器学习笔记(十)
原创博客,转载请注明出处!1、代价函数需要先理解些概念:大写字母L表示神经网络结构的总层数,表示第L层的神经元数(其中不包括偏差单元),如果输出有K个单元,那么输出就是K维向量神经网络的代价函数如下,表示第i个输出,是一个K维向量2、反向传播算法为了使用梯度下降法或者其它某种高级算法,我们需要获得输入参数Θ并计算J(Θ)的导数首先应用前向传播方法来计算一下在...原创 2018-12-21 23:35:50 · 291 阅读 · 1 评论 -
吴恩达机器学习笔记(九)
原创博客,转载请注明出处!1、非线性假设问题:无论是线性回归还是逻辑回归都有这样一个缺点,即:当特征太多时,计算的负荷会非常大计算机对图像的理解与人类的直观不一样,是一串二进制数据!如果我们的目标让计算机识别一辆车假使我们采用的都是50x50像素的小图片,并且我们将所有的像素视为特征,则会有 2500个特征,如果我们要进一步将两两特征组合构成一个多项式模型,则会有约...原创 2018-12-21 20:37:56 · 308 阅读 · 0 评论 -
吴恩达机器学习笔记(二)
原创博客,转载请注明出处!问题:假如有一些房子大小对应房价的数据,要求比较准确的预测房价即我们给房价提供训练集数据,要求得到一个假设函数h(x),把房子大小作为输入变量,房价为输出变量来预测记住几个概念这堆已给出的正确的数据,称为训练集m表示训练集的样本数x是输入特征,y是输出变量分别表示第i个训练样本的特征和输出变量感觉可以用一条直线来拟合这些数据,就...原创 2018-12-20 17:28:54 · 284 阅读 · 0 评论 -
吴恩达机器学习笔记(十九)
原创博客,转置请注明出处!1、问题描述与OCR pipeline图像文字识别应用所作的事是,从一张给定的图片中识别文字。这比从一份扫描文档中识别文字要复杂的多。为了完成这样的工作,需要采取如下步骤:①文字侦测 —— 将图片上的文字与其他环境对象分离开来②字符切分 —— 将文字分割成一个个单一的字符③字符分类 —— 确定每一个字符是什么 可以用任务流程图来表达这个问题,每...原创 2018-12-26 15:28:23 · 218 阅读 · 0 评论 -
吴恩达机器学习笔记(三)
原创博客,转载请注明出处!第三章主要讲的是矩阵,故对于线性代数很熟悉的同学可以跳过这章矩阵就是用中括号括起来的若干行若干列的数聚在一起专业定义是:矩阵(Matrix)是一个按照长方阵列排列的复数或实数集合向来是只有一列的矩阵矩阵的加法就是矩阵对应位置的数相加得到新矩阵,不同形状的矩阵不能相加矩阵的标量乘法就是对应位置的数跟标量相乘无论矩阵跟矩阵相乘还是矩...原创 2018-12-20 19:30:58 · 260 阅读 · 0 评论 -
吴恩达机器学习笔记(四)
原创博客,转载请注明出处!第四章主要讲Matlab和Octave的安装和配置MATLAB的安装就不用说了Octave在https://ftp.gnu.org/gnu/octave/windows/ 下载自己想要的版本我是windows系统,装的是最新版然后安装下一步下一步就可以了!安装成功的界面如下:...原创 2018-12-20 19:38:08 · 236 阅读 · 0 评论 -
吴恩达机器学习笔记(五)
原创博客,转载请注明出处!1、多特征时上标i表示第i个样本,下标j表示第j个特征,多特征的线性回归函数2、多元梯度下降算法如下3、特征缩放:如果两个变量的取值范围相差很远,则代价函数的等值线会呈现非常歪斜的椭圆,此时就要特征缩放来解决!执行特征缩放时,一般将取值约束到-1 到 1左右 4、如何选则学习率:确保梯度下降正常工作如...原创 2018-12-20 21:34:10 · 238 阅读 · 0 评论 -
吴恩达机器学习笔记(六)
原创博客,转置请注明出处!第六章主要介绍Octave的基本语法exit 退出Octave&& || xor(,)分别是逻辑与,或,异或disp(sprintf('decimals:%0.2f',a))是2位小数输出aformat long是让字符串显示更多的位数format short是让字符串显示更少(默认)的位数A = [1 2;3 4;5 6]产生一个三行两列的矩阵v...原创 2018-12-20 22:10:34 · 277 阅读 · 0 评论 -
吴恩达机器学习笔记(七)
原创博客,转载请注明出处!第七章 Logistic回归y取值个数有限的分类,我们用y=1或0表示其两种分类如果用线性回归方法直线拟合数据,有时是幸运的,得到了比较好的拟合但,在X轴一个比较大的位置添加个训练样本,假设函数反而变差,另外,如果输出值大于1或者小于0,又将如何处理?因此,不得不引入新的假设函数来处理logistic回归3、决策界限...原创 2018-12-20 22:47:33 · 221 阅读 · 0 评论 -
吴恩达机器学习笔记(八)
原创博客,转载请注明出处!第八章 正则化欠拟合(高偏差):算法没有很好的拟合训练集过度拟合(高方差):假设函数能几乎拟合所有数据,可能函数太过庞大变量太多,没有足够多数据约束它解决过度拟合的方法:1、人工检测变量清单,尽可能少的选择变量数量2、正则化2、代价函数加入惩罚项惩罚度不可太大也不宜过小3、线性回归的正则化牢记公式梯...原创 2018-12-20 23:07:41 · 176 阅读 · 0 评论 -
吴恩达机器学习笔记(十八)
原创博客,转载请注明出处!1、学习大数据集如果我们有一个低方差的模型,增加数据集的规模可以帮助你获得更好的结果。我们应该怎样应对一个有1亿条记录的训练集?以线性回归模型为例,每一次梯度下降迭代,我们都需要计算训练集的误差的平方和,如果我们的学习算法需要有20次迭代,这便已经是非常大的计算代价。首先应该做的事是去检查一个这么大规模的训练集是否真的必要,也许我们只用1000个训练集也能...原创 2018-12-26 11:27:39 · 250 阅读 · 0 评论