自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 支持向量机与SMO优化算法

1 算法概述1.1 工作原理类似于感知机,用一个分离超平面将正负类分开,不同之处在于,感知机只是要求分开正负类,而支持向量机要求找出分离间隔最大的超平面。1.2 三要素模型:超平面分类决策模型策略:分类间隔最大化、合页损失函数最小化算法:序列最小化算法(SMO)1.3 线性可分与硬间隔1.3.1 函数间隔和几何间隔我们定义函数间隔为  ,超平面为 如果我们成

2017-08-18 17:03:04 943

原创 决策树算法与不同的剪枝方法

1 问题引入夏天快要过去,在酷热难耐的夏天,很多人都会选择在街边买几个西瓜回去解渴,有经验的长辈可以根据瓜的色泽、敲声、根蒂挑选出熟了的西瓜。那么我们是否可以根据长辈的经验总结出一套规则,建立一个完整的系统,自动的分析一个瓜是生瓜还是熟瓜。此时我们就可以使用机器学习算法决策树来构建这么个系统。2 算法概述分类决策树模型是一种描述对实例进行分类的树形结构,决策树可以被看做是一个if-th

2017-08-15 17:10:46 2867

原创 线性链条件随机场简介

1 算法概述1.1 马尔可夫性(1)成对马尔可夫性:u,v是无向图中的两个没有边连接的结点,分别对应随机变量Yu,Yv,其他结点为O,对应随机变量为Yo,在给定随机变量组Yo的情况下,Yu和Yv是独立的。P(Yu,Yv|Yo)=P(Yu|Yo) P(Yv|Yo)(2)局部马尔可夫性:w和v是有边连接的所有结点,o是以外的所有结点。给定Yw条件下,Yv和Yo是独立的。P(Yv,Yo|

2017-08-23 11:15:31 2852

原创 隐马尔可夫模型

1 模型概述1.1 基本概念隐马尔可夫模型是关于时序的模型。描述由一个隐藏的马尔科夫链随机生成不可观测的状态随机序列,在由各个状态生成一个观测而产生观测随机序列的过程。1.2 三要素(1)初始状态概率向量π:初始状态序列各个状态出现的概率(2)状态转移概率矩阵A:从某一个状态转移到另一个状态的概率(3)观测概率矩阵B:在某个状态出现不同观测的概率1.3 基本假设(1

2017-08-22 16:38:26 991

原创 PCA和SVD降维

1 问题引入前边几章我们学习了很多机器学习的算法,它们在小规模数据上都很有效,但在实际生活中,我们的数据集可能是巨大的,在大规模、多维度数据上运行算法效果往往没有那么好,原因之一是数据的维度太大,有些特征可能对我们的算法决策没有太大影响,或是一些噪声产生干扰。本章我们会提前对数据进行降维处理,只保留数据集中最重要的特征,对数据进行简化,即数据的预处理阶段。2 PCA2.1 工作原理

2017-08-22 11:01:34 1700

原创 Apriori关联分析与FP-growth挖掘频繁项集

1 问题引入在去杂货店买东西的过程,实际上包含了机器学习的应用,这包括物品的展示方式、优惠券等。通过查看哪些商品经常被一起购买,商店可以了解用户的购买习惯,然后将经常被一起购买的物品摆放在一起,有助于商品的售卖。从大规模数据集中寻找物品建的隐含关系被称作关联分析。但是寻找物品不同的组合是一项十分耗时的任务,暴力搜索不不能解决这个问题,所以我们需要考虑更加智能的方式去完成这项艰巨的任务。2

2017-08-21 21:48:25 1033

原创 k-means聚类算法与局部最优解

1 算法概述1.1 无监督学习本章算法区别于之前的机器学习算法,因为k-means算法属于无监督算法。监督学习的意思是所给的训练数据都带有标签,如类别等,我们在训练算法时,要考虑预测的结果是否拟合了训练数据中的标签,即好像受其监督一样,而无监督学习与监督学习的区别就在此,无监督学习的数据没有标签,没有人为的分类,就只是一堆数据,我们要做的是将这堆数据以某种我们不知道的内在特性分开,自动形成

2017-08-21 20:10:26 13243 1

原创 线性回归算法和一些技巧

1 基本概念1.1 工作原理做线性回归时,我们通常会使用“普通最小二乘法”,即将目标函数定为平方误差 ,对w求导,令其为零得这是当前可以估计出的w的最优解,即回归方程的参数。2.1 局部加权线性回归线性回归的一个问题是可能出现欠拟合现象(测试误差高),因为它求的是最小均方误差的无偏估计。所以我们允许在估计中引入一些偏差,从而降低预测的均方误差。我们考虑的是局部加权,

2017-08-21 15:16:34 1091

原创 AdaBoost元算法与提升树

1 问题引入1.1 强学习与弱学习提升方法的思想是,对于一个复杂任务,多个专家综合的判断所得出的结果要比一个专家号,即三个臭皮匠赛过诸葛亮的道理。弱学习算法是指学习的正确率比随机猜测略好,强学习算法不仅可以学习,还能得到很高正确率。经学者证明,强可学习和弱可学习是等价的,即同时成立。所以我们的目标是找到一个弱学习算法,然后通过提升措施,将其升级为正确率高的强可学习。1.2 boosti

2017-08-19 16:34:39 509

原创 感知机算法(SVM简化版)

1 算法概述1.1 工作原理感知机是二类分类线性模型,在特征空间中,用一个超平面将正类、负类分离,我们所要做的就是求得这个超平面。使用指示函数sign作为输入到输出的映射,sign(w·x+b)。1.2 三要素模型:分离超平面决策模型策略:误分类点到超平面的总距离(损失函数)算法:随机梯度下降算法注:由于误分类点总数作为损失函数不是参数w,b的连续可到函数,所以不能使用

2017-08-18 14:58:24 349

原创 逻辑斯谛回归与最大熵分类模型

1 逻辑斯谛算法概述1.1 工作原理逻辑斯谛是一种最优化算法。根据现有数据对分类边界线建立回归公式,相当于找出一些拟合参数,将两类数据尽可能的分开。为了实现回归分类,我们给每个特征分配一个回归系数,然后把所有结果相加,为了能让这个结果可以表示分类,我们另外使用一个阶跃函数sigmoid,将结果带入,函数可以使输出范围控制在0-1之间,大于0.5分为1类,小于0.5分为0类。1.2 三要

2017-08-17 21:28:36 680

原创 朴素贝叶斯算法

1 问题引入在前两章的分类器,我们往往会要求分类器给出明确的分类,不过,分类器有时也会产生错误的结果,这时可以要求分类器给出一个最可能的猜测结果,同时给出这种猜测的概率估计值。2 算法概述2.1 工作原理首先朴素贝叶斯法一句贝叶斯准则计算条件概率。P(c|x) = P(x|c)P(c) / P(x)通过计算在给定条件下属于不同类的概率,选出后验概率最大的类作为新实例的分类。

2017-08-16 21:00:32 500

原创 k-近邻算法与kd树优化

1 问题引入最近随着战狼2的口碑不断上涨,票房也屡屡创下纪录,截止目前,战狼2 的票房已经突破40亿,登顶华语票房冠军,但我想关注的不是票房,而是战狼2究竟是一部什么类型的电影,很多人可能会说,这明显是一部动作片啊,那么问题来了,为什么大部分人觉得战狼2是一部动作片,而不是爱情片、恐怖片。其实他们在回答这个问题的时候,脑海中回想的是战狼2中的各种打斗场面,这种画面占据了电影的大部分时间,他们最

2017-08-14 17:19:38 1347

原创 机器学习的统计方法解释

统计学习方法三要素机器学习实际上用到了很多统计学的知识。按Tom Mitchell的话说,对于某类任务T和性能度量P,如果计算机程序在T上以P衡量的性能随着经验E而自我完善,那么就称这个计算机程序从经验E学习。那么计算机如何通过经验E完善自我呢?答案就是统计学习的方法。统计学习从数据出发,提取数据的特征,抽象出数据的模型,最后用构建的模型对未知进行预测。统计学习由三要素构成,可以表示为

2017-08-14 11:08:03 591

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除