
机器学习
文章平均质量分 84
steph_curry
这个作者很懒,什么都没留下…
展开
-
概念学习
概念学习和归纳偏置 感觉概念学习现在提得很少,可能是因为在机器学习的实际应用中很少用到,但是从概念学习中很容易引出归纳偏置的概念,而归纳偏置是个很重要的概念,因此这次会简单讲讲概念学习,着重于归纳偏置。可以看到归纳偏置对于机器学习的重要性。概念学习 给定一样例集合以及每个样例是否属于某一概念的标注,怎样自动推断出该概念的一般定义。这一问题被称为概念学习。一个更准确的定义:概念学习是指从有关某个布尔...转载 2018-06-15 17:59:28 · 2702 阅读 · 0 评论 -
第八章 集成学习
8.1 个体与集成集成学习就是把多个学习器结合起来。一般这种结合比单一学习器泛化性能更优良。不是说集成一定比单一的好,如果想获得好的集成,个体学习器应“好而不同”。假设基学习器的误差独立,则可推出集成的错误随着分类器数目增大而指数级下降。(现实中不可能)准确性和多样性是矛盾的。集成学习分类:序列化方法:个体学习器强依赖关系,串行生成。Boosting并行化方法:不存在强依赖,同时生成。Baggin...原创 2018-01-23 15:50:54 · 523 阅读 · 0 评论 -
机器学习实战之SVM
简版SMO:from numpy import *import timeimport matplotlib.pyplot as pltdef loaddata(filename): datamat=[];labelmat=[] fr=open(filename) for line in fr.readlines(): linearr=line.stri...原创 2018-03-21 17:23:32 · 416 阅读 · 0 评论 -
机器学习实战之AdaBoost
import numpyfrom numpy import *import matplotlib.pyplot as pltdef loadSimpleData(): dataMat=matrix([[1.,2.1], [2.,1.1], [1.3,1.], [1.,...原创 2018-03-22 17:50:11 · 286 阅读 · 0 评论 -
半监督学习
半监督学习:让学习器不依赖外界交互、自动利用未标记样本提升学习性能,就是半监督学习。它的出现也是符合实际生活的需求,比如:互联网中进行网页推荐,请用户标记出感兴趣的网页,但实际用户标记的很少,所以“有标记数据少,无标记数据多”;再比如医学影像分析,可以从医院获得大量医学影像,但是全部标记是不现实的。半监督学习还可以进一步划分为纯半监督学习和直推学习,两者的区别在于:前者假定训练数据集中的未转载 2018-01-29 16:30:56 · 338 阅读 · 0 评论 -
第五章 神经网络
今天学习的是现在人工智能领域最火的神经网络啦,很牛逼的深度学习也是这部分的内容。但是我还没学看深度学习,准备机器学习系统学习后再重点学习DL。所以今天学的也只是一个系统概论。5.1 神经元模型高中已经学过神经元了,给个刺激,神经元就会有反应。机器学习的神经元模型也是模仿生物上的,典型的"M-P神经元模型“如下:x1到xn都是神经元的输入,w1到wn是每个输入连接的权值。原创 2018-01-20 16:18:14 · 425 阅读 · 0 评论 -
第十二章 计算学习理论
12.1 基础知识泛化误差 经验误差12.2 PAC学习(PAC:概率近似正确)概念c 概念类C假设空间H,若目标概念c属于H,则H中存在假设能将所有示例按与真实标记一致的方向完全分开,称该问题对算法A是可分的;若c不属于H,则H中不存在能将所有示例完全正确划分开的假设,称该问题对学习算法A是不可分的。 12.3 有限假设空间原创 2018-01-28 21:45:28 · 511 阅读 · 0 评论 -
第四章 决策树
4.1基本流程今天学习一种常见的机器学习方法——决策树。什么东西呢,我觉得看一下下面这个图就知道什么回事了(图是用别的博主的)决策树包含一个根结点,若干内部结点和叶节点。叶节点表示决策结果(见还是不见),其他结点对应一个属性测试。可以看到,除了根结点包含所有的样本外,每经过一个属性测试,下面的节点就会只包含满足测试的样本,样本数越来越少。从根结点到叶节点就对应了一个原创 2018-01-19 21:35:35 · 346 阅读 · 0 评论 -
第三章 线性模型
今天是杰伦生日,听到新歌了,我觉得还不错。网上有些人批评它,哎,虽然人各有好,但是还是有点忿忿不平……我这么多年也就粉杰伦一个。 好了,今天开始进入机器学习正题了。开始一个个模型涌来。其实我觉得学模型学算法还是很愉快的,因为这个东西很明确,像一个个实用的工具,你会有种很充实的感觉,反正不管中间听懂多少,都有种成就感。我之前有听过吴恩达的课,他的课对这些模型建立、数学推导都讲的很详细(这原创 2018-01-19 01:40:39 · 374 阅读 · 0 评论 -
第十一章 特征选择和稀疏学习
11.1子集搜索和评价所谓子集搜索就是一个物体有很多属性,但是对当前学习任务来说,可能只有少部分属性是重要的,这叫“相关特征”,没什么用的叫“无关特征”。从特征集中选出“相关特征”叫特征选择。两个原因要特征选择:维数灾难、降低学习难度。两个关键环节:1、如何根据评价结果取获取下一个候选特征子集?前向搜索/后向搜索/双向搜索2、如何评价特征子集好坏?计算信原创 2018-01-26 15:23:15 · 683 阅读 · 0 评论 -
降维和度量学习
10.降维和度量学习10.1k近邻学习k近邻(k-NearestNeighbor,简称kNN)学习是一种常用的监督学习方法,其原理是:给定测试样本,基于某种距离度量找出训练集中与其最靠近的k个训练样本,然后基于这k个邻居的信息来进行预测。在分类任务中,使用投票法,选择k个样本中出现最多的类别标记作为预测结果;在回归任务中,使用平均法,将这k个样本的实值输出标记的平均值作为预测结果。原创 2018-01-25 22:55:40 · 1150 阅读 · 0 评论 -
第二章 模型评估与选择
今天好颓废……晚上刚看到微信里的头脑王者小程序,玩了俩小时,把学习计划推到了现在……2.1 经验误差与过拟合上一章后面讲了NFL,这并不能阻挡我们现实中对具体问题各种候选模型进行择优的激情。这一章我们学习模型的评估和选择方法。先看几个简单的概念。误差:学习器的实际预测输出和样本的真实输出之间的差异;训练误差:学习器在训练集上的误差。也叫经验误差;泛化误差:在新样本上的误差。原创 2018-01-17 13:31:08 · 479 阅读 · 0 评论 -
第九章 聚类
9.1 聚类任务终于来到“无监督学习”。聚类的训练样本标记是未知的,试图将数据集的样本划分为若干个不相交的子集,每个子集叫一个“簇”。聚类过程自动形成“簇”,至于“簇”的意义由你决定。9.2性能度量我们希望的是聚类结果“簇内相似度”高,而“簇间相似度”低。“外部指标”:Jaccard系数 FM指数 Rand指数内部指标:DB指数 Dunn指数9.3距离计算即函数原创 2018-01-24 16:12:08 · 357 阅读 · 0 评论 -
第一章 基本知识
前言: 机器学习这个领域其实在2017年国庆的时候就开始涉猎,从Andrew Ng的斯坦福 Machine Learning这门课入门,然后看了周志华的西瓜书(没看完),中间穿插的敲了一些《机器学习实战》上的代码。学了大概两个月,因为别的事后来搁浅了。现在回头看,很多东西当时学的比较急,没有消化透,而且整体上没有整理结构,使得知识不系统。现在是寒假,毕设暂时不吃紧,计划把这方面知识重新理一遍原创 2018-01-15 21:50:56 · 190 阅读 · 0 评论 -
第七章 贝叶斯决策论
今天学习的贝叶斯分类器也是很经典很重要的分类器,曾入选过“数据挖掘十大算法”。 哎,我决定只写最核心和简单的部分了,因为我发现有的地方我也是朦朦胧胧,主要是书本有的东西很简单的一说,其实背后的知识非常多,我不准备一一细细研究了。现在是系统化的阶段,我不想让几个对主框架没那么大影响的难点影响进度。7.1 贝叶斯决策论 设有N 种可能的类别标记,即Y=c1,c2,…,cN,则基于后验概率P(ci|x原创 2018-01-22 21:34:12 · 328 阅读 · 0 评论 -
第六章 支持向量机
今天学著名的SVM——支持向量机 6.1 间隔与支持向量 给定训练样本集D,样本标记yi范围是{-1,+1}。看下面的图: 中间的直线就是我们的目标,希望找到一个超平面能完美的把正反例划分开。 其实我们看到图中的那么多线似乎都划分的不错,没有错误。但是哪一条更好呢?我们认为中间加粗的更好,因为我们想啊,它是距离正反例都相对较远,一旦训练集样本变化,数据发生扰动,它的划分效果受影响最小,原创 2018-01-21 16:35:39 · 268 阅读 · 2 评论