
机器学习
kevin聪
Success is not final.Failure is not fatal.It is the courage to continue that counts.
展开
-
转载-机器学习-逻辑回归-参数迭代公式推导
原始出处:http://sbp810050504.blog.51cto.com/2799422/1608064在《机器学习实战》一书的第5章中讲到了Logistic用于二分类问题。书中只是给出梯度上升算法代码,但是并没有给出数学推导。故哪怕是简单的几行代码,依然难以理解。 对于Logistic回归模型而言,需要读者具有高等数学、线性代数、概率论和数理统计的基础的数学基础。高等数学部分能理解偏导数即转载 2017-11-10 17:30:09 · 382 阅读 · 0 评论 -
机器学习实战笔记-使用Apriori算法进行关联分析
在去杂货店买东西的过程,实际包含了许多机器学习的当前及未来应用,这包括物品的展示方式、购物之后优惠券的提供以及用户忠诚度计划,等等。它们都离不开对大量数据的分析。 通过查看哪些商品经常在一起购买,可以帮助商店了解用户的购买行为。这种从数据海洋中抽取的知识可以用于商品定价、市场促销、存货管理等环节。从大规模数据集中寻找物品间的隐含关系被称作关联分析(association analysis ) 或者原创 2017-11-23 22:26:26 · 4551 阅读 · 2 评论 -
机器学习实战笔记-利用K均值聚类算法对未标注数据分组
聚类是一种无监督的学习,它将相似的对象归到同一个簇中。它有点像全自动分类。聚类方法几乎可以应用于所有对象,簇内的对象越相似,聚类的效果越好 簇识别给出聚类结果的含义。假定有一些数据,现在将相似数据归到一起,簇识别会告诉我们这些簇到底都是些什么。聚类与分类的最大不同在于,分类的目标事先巳知,而聚类则不一样。因为其产生 的结果与分类相同,而只是类别没有预先定义,聚类有时也被称为无监督分类(unsup原创 2017-11-20 21:43:05 · 1416 阅读 · 0 评论 -
机器学习实战笔记-树回归
9.1 复杂数据的局部性建模第3章使用决策树来进行分类。决策树不断将数据切分成小数据集,直到所有目标变量完全相 同 ,或者数据不能再切分为止。决策树是一种贪心算法,它要在给定时间内做出最佳选择,但并不关心能否达到全局最优。 树回归优点:可以对复杂和非线性的数据建模。 缺点:结果不易理解。 适用数据类型:数值型和标称型数据。第3章使用原创 2017-11-17 22:35:36 · 604 阅读 · 0 评论 -
机器学习实战笔记-预测数值型数据:回归
8. 1 用线性回归找到最佳拟合直线线性回归 优点:结果易于理解,计算上不复杂。 缺点:对非线性的数据拟合不好。 适用数据类型:数值型和标称型数据。回归的目的是预测数值型的目标值。最直接的办法是依据输人写出一个目标值的计算公式。 假如你想要预测姐姐男友汽车的功率大小,可能会这么计算: HorsePower = 0.0015* annualSalary - 0.99* hoursListen原创 2017-11-16 17:31:24 · 5017 阅读 · 0 评论 -
机器学习实战笔记-利用AdaBoost元算法提高分类性能
做重要决定时,大家可能都会考虑吸取多个专家而不只是一个人的意见。机器学习处理问题时又何尝不是如此?这就是元算法(meta-algorithm ) 背后的思路。元算法是对其他算法进行组合的一种方式7.1 基于数据集多重抽样的分类器 我们自然可以将不同的分类器组合起来,而这种组合结果则被称为集成方法(ensemblemethod)或者元算法(meta-algorithm)。使用集成方法时会有多种形原创 2017-11-15 11:30:52 · 673 阅读 · 0 评论 -
机器学习实战笔记-支持向量机
本文不涉及SVM和SMO的公式推导,在下面几篇文章有详细的推导: http://blog.youkuaiyun.com/jinshengtao/article/details/40900865 http://blog.youkuaiyun.com/zouxy09/article/details/17291543 6.1 基于最大间隔分隔数据 优点:泛化错误率低,计算开销不大,结果易解释。 缺点:对参数调节和核函原创 2017-11-13 17:45:08 · 586 阅读 · 0 评论 -
机器学习实战笔记-Logistic回归
假设现在有一些数据点,我们用一条直线对这些点进行拟合(该线称为最佳拟合直线),这个拟合过程就称作回归。 利用Logistic回归进行分类的主要思想是:根据现有数据对分类边界线建立回归公式,以此进行分类。这里的“ 回归” 一词源于最佳拟合,表示要找到最佳拟合参数集 训练分类器时的做法就是寻找最佳拟合参数,使用的是最优化算法。Logistic回归的一般过程 (1)收集数据:采用任意方法收集数据。原创 2017-11-11 09:37:35 · 604 阅读 · 0 评论 -
机器学习实战笔记-朴素贝叶斯
4.1.基于贝叶斯决策理论的分类方法 朴素贝叶斯 优点:在数据较少的情况下仍然有效,可以处理多类别问题。 缺点:对于输入数据的准备方式较为敏感。 适用数据类型:标称型数据。朴素贝叶斯是贝叶斯决策理论的一部分,所以讲述朴素负叶斯之前有必要快速了解一下贝叶斯决策理论。 假设现在我们有一个数据集,它由两类数据组成,数据分布如图4-1所示。 我们现在用p1(x,y)p1(x,y)表示数据点(原创 2017-11-09 00:51:40 · 721 阅读 · 1 评论 -
机器学习实战笔记-决策树
图3-1所示的流程图就是一个决策树,正方形代表判断模块(decisionblock),椭圆形代表终止模块(terminating block),表示已经得出结论,可以终止运行。从判断模块引出的左右箭头称作分支(branch),它可以到达另一个判断模块或者终止模块。 图3-1构造了一个假想的邮件分类系统,它首先检测发送邮件域名地址。如果地址为myEmpIoyer.com,则将其放在分类“无聊时需要阅原创 2017-11-06 17:33:11 · 388 阅读 · 0 评论 -
机器学习实战笔记-K近邻算法3(手写识别系统)
1 准备数据:将图像转换为测试向量 这次数据集还是有两种,训练数据集和测试数据集,分别有2000个,900个。 我们将把一个32*32的二进制图像矩阵转换为1 x 1024的向量,这样前两节使用的分类器就可以处理数字图像信息了。 代码: def img2vector(filename): returnVect = zeros((1,1024))原创 2017-11-04 23:34:18 · 408 阅读 · 0 评论 -
机器学习实战笔记-K近邻算法2(改进约会网站的配对效果)
案例二.:使用K-近邻算法改进约会网站的配对效果 案例分析: 海伦收集的数据集有三类特征,分别是每年获得的飞行常客里程数、玩视频游戏所耗时间百分比、 每周消费的冰淇淋公升数。我们需要将新数据的每个新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签。一般来说,我们只选择样本数据集中前k个最相似的数据,这就是k-近邻算法中k的出处,通常k原创 2017-11-04 19:39:03 · 535 阅读 · 0 评论 -
机器学习实战笔记-K近邻算法1(分类动作片与爱情片)
K近邻算法采用测量不同特征值之间的距离方法进行分类K近邻算法特点: 优点:精度高、对异常值不敏感、无数据输入假定。 缺点:计算复杂度高、空间复杂度高。 适用数据范围:数值型和标称型。K近邻算法原理: 存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。输人没有标签的新数据后,将新数据的每个特征原创 2017-11-04 11:27:05 · 801 阅读 · 0 评论 -
转载-人工智能和机器学习领域大牛
牛人主页(主页有很多论文代码)Serge Belongie at UC San DiegoAntonio Torralba at MITAlexei Ffros at CMUCe Liu at Microsoft Research New EnglandVittorio Ferrari at Univ.of EdinburghKristen Grauman at UT Aus转载 2017-11-10 12:04:37 · 1545 阅读 · 0 评论 -
转载-【讨论】为什么不去读顶级会议上的论文?适应于机器学习、计算机视觉和人工智能
看了版上很多贴子,发现很多版友都在问“热门研究方向”、“最新方法”等。有同学建议国内某教授的教材、或者CNKI、或者某些SCI期刊。每当看到这种问题,我都有点纳闷,为什么不去读顶级会议上的论文?我无意否认以上文献的价值,但是在机器学习、计算机视觉和人工智能领域,顶级会议才是王道。国内教材和CNKI上的基本是N年前老掉牙的东西。有人会质疑这些会议都只是EI。是的,这的确非常特殊:在许多其它领域,会议转载 2017-11-10 12:00:30 · 320 阅读 · 0 评论 -
机器学习实战笔记-使用FP-growth算法来高效发现频繁项集
上一章我们讨论了从数据集中获取有趣信息的方法,最常用的两种分别是频繁项集与关联规则。第11章中介绍了发现频繁项集与关键规则的算法,本章将继续关注发现频繁项集这一任务。我们会深人探索该任务的解决方法,并应用FP-growth算法进行处理,该算法能够更有效地挖掘数据。这种算法虽然能更为高效地发现频繁项集,但不能用于发现关联规则。 FP-growth算法只需要对数据库进行两次扫描,而Apriori算法对原创 2017-11-27 21:36:30 · 2295 阅读 · 0 评论 -
机器学习实战笔记-利用PCA来简化数据
本篇文章不涉及理论推理。如果你想知道为什么通过协方差矩阵算出特征向量和特征值,然后对特征值进行排序后找到对应的特征向量与原矩阵X相乘即可得到降维后的X,可以去看看这篇文章: http://blog.youkuaiyun.com/sinat_17451213/article/details/51193720 里面包含了如何通过基(对应特征向量)来对向量降维,如何通过原始数据集的协方差矩阵来得到特征值和特征向量原创 2017-11-29 15:23:38 · 566 阅读 · 0 评论 -
机器学习实战笔记-利用SVD简化数据
14.1 SVD的应用奇异值分解 优点:简化数据,去除嗓声,提高算法的结果。 缺点:数据的转换可能难以理解。 适用数据类型:数值型数据。14.1.1 隐性语义索引SVD的历史巳经超过上百个年头,但是最近几十年随着计算机的使用,我们发现了其更多的使用价值。最早的SVD应用之一就是信息检索。我们称利用SVD的方法为隐性语义索引(Latent Semantic Indexing, LSI) 或隐性语原创 2017-12-03 01:16:01 · 780 阅读 · 0 评论 -
转载-最大似然估计总结笔记
出处:http://blog.youkuaiyun.com/yanqingan/article/details/6125812 最大似然估计学习总结——MadTurtle1. 作用在已知试验结果(即是样本)的情况下,用来估计满足这些样本分布的参数,把可能性最大的那个参数作为真实的参数估计。2. 离散型设为离散型随机变量,为多维参数向量,如果随机变量相互独立且概率计算式为P{转载 2017-11-10 19:27:44 · 315 阅读 · 0 评论 -
转载-深入理解拉格朗日乘子法(Lagrange Multiplier) 和KKT条件
在求取有约束条件的优化问题时,拉格朗日乘子法(Lagrange Multiplier) 和KKT条件是非常重要的两个求取方法,对于等式约束的优化问题,可以应用拉格朗日乘子法去求取最优值;如果含有不等式约束,可以应用KKT条件去求取。当然,这两个方法求得的结果只是必要条件,只有当是凸函数的情况下,才能保证是充分必要条件。KKT条件是拉格朗日乘子法的泛化。之前学习的时候,只知道直接应用两个方法,但是却不转载 2017-11-12 11:17:49 · 253 阅读 · 0 评论 -
转载-机器学习实战之SVM
出处:https://www.cnblogs.com/zy230530/p/6901277.html 机器学习实战之SVM一引言: 支持向量机这部分确实很多,想要真正的去理解它,不仅仅知道理论,还要进行相关的代码编写和测试,二者想和结合,才能更好的帮助我们理解SVM这一非常优秀的分类算法 支持向量机是一种二类分类算法,假设一个平面可以将所有的样本分为两类,位于正侧的样本为一类,值为+1,而位转载 2017-11-12 11:26:39 · 385 阅读 · 0 评论 -
转载--机器学习算法与Python实践之(二)支持向量机(SVM)初级
出处:http://blog.youkuaiyun.com/zouxy09/article/details/17291543 机器学习算法与Python实践之(二)支持向量机(SVM)初级zouxy09@qq.comhttp://blog.youkuaiyun.com/zouxy09 机器学习算法与Python实践这个系列主要是参考《机器学习实战》这本书。因为自己想学习Pyth转载 2017-11-12 11:27:41 · 387 阅读 · 0 评论 -
转载--机器学习算法与Python实践之(三)支持向量机(SVM)进阶
出处:http://blog.youkuaiyun.com/zouxy09/article/details/17291805 机器学习算法与Python实践之(三)支持向量机(SVM)进阶zouxy09@qq.comhttp://blog.youkuaiyun.com/zouxy09 机器学习算法与Python实践这个系列主要是参考《机器学习实战》这本书。因为自己想学习Pyth转载 2017-11-12 11:28:35 · 379 阅读 · 0 评论 -
转载-机器学习之旅---SVM分类器
出处:http://blog.youkuaiyun.com/jinshengtao/article/details/40900865本次内容主要讲解什么是支持向量,SVM分类是如何推导的,最小序列SMO算法部分推导。最后给出线性和非线性2分类问题的smo算法matlab实现代码。一、什么是支持向量机(Support Vector Machine)本节内容部分翻译Opencv教程:http://docs.o转载 2017-11-12 19:42:53 · 517 阅读 · 0 评论 -
转载-改做人工智能之前,90%的人都没能给自己定位
出处:http://blog.youkuaiyun.com/gitchat/article/details/78410081本文来自作者 章华燕 在 GitChat 上分享「转行 AI,如何给自己定位?」,「阅读原文」查看交流实录「文末高能」编辑 | 奕迅1. 为什么人工智能如此之火众所周知,互联网行业的变化快到让所有从业者知悉并惶恐。就在笔者还在读研的时候,大家都在议论:Java 还是 C++ 更好就业的转载 2017-11-14 13:59:44 · 494 阅读 · 0 评论 -
转载-3分钟了解入门「机器学习」该学习什么?(上)
出处:http://blog.youkuaiyun.com/gitchat/article/details/78526665本文来自作者 粽子 在 GitChat 上分享「零基础的新手,如何入门机器学习?」,「阅读原文」查看交流实录「文末高能」编辑 | 坂本一、机器学习入门浅谈机器学习领域,又或者更大而化之的说人工智能方向,因为“阿尔法狗”等一系列的热门爆点话题,被推到了人前,受到越来越多人的关注。无论你是什么转载 2017-11-14 14:00:51 · 562 阅读 · 0 评论 -
转载-3分钟了解入门「机器学习」该学习什么?(下)
转载:http://blog.youkuaiyun.com/gitchat/article/details/78526664本文来自作者 刘明 在 GitChat 上分享「机器学习/深度学习书单推荐及学习方法」,「阅读原文」查看交流实录「文末高能」编辑 | 坂本写在前面本人是个对数学和人工智能极其感兴趣的人。平时,我也在线上线下经常与国内外的朋友讨论人工智能的各种方面,无论是技术方面还是哲学方面。我帮助过很多实转载 2017-11-14 14:10:35 · 590 阅读 · 0 评论 -
转载-机器学习实战之PCA
1. 向量及其基变换1.1 向量内积(1)两个维数相同的向量的内积定义如下: 内积运算将两个向量映射为一个实数.(2) 内积的几何意义 假设A\B是两个n维向量, n维向量可以等价表示为n维空间中的一条从原点发射的有向线段, 为方便理解, 在这里假设A和B都是二维向量.A=(x1,y1) , B=(x2,y2),在二维平面上A/B可以用两条发自原点的有向线段表示,如下图:在上图中,从转载 2017-11-29 10:44:28 · 350 阅读 · 0 评论 -
转载-成为一名机器学习算法工程师,你需要这些必备技能
出处:http://blog.youkuaiyun.com/qq_40027052/article/details/78773302 成为一名合格的开发工程师不是一件简单的事情,需要掌握从开发到调试到优化等一系列能力,这些能力中的每一项掌握起来都需要足够的努力和经验。而要成为一名合格的机器学习算法工程师(以转载 2017-12-12 12:29:21 · 774 阅读 · 0 评论 -
转载-Python & 机器学习之项目实践
机器学习是一项经验技能,经验越多越好。在项目建立的过程中,实践是掌握机器学习的最佳手段。在实践过程中,通过实际操作加深对分类和回归问题的每一个步骤的理解,达到学习机器学习的目的。预测模型项目模板不能只通过阅读来掌握机器学习的技能,需要进行大量的练习。本文将介绍一个通用的机器学习的项目模板,创建这个模板总共有六个步骤。通过本文将学到:端到端地预测(分类与回归)模型的项目结构。如何将前面学到的内容引转载 2017-12-28 10:04:25 · 684 阅读 · 0 评论 -
转载-机器学习and深度学习学习资料
出处:http://blog.youkuaiyun.com/piaoxuezhong/article/details/78571618你可能经常听到周边人说:机器学习,深度学习,机器视觉等词汇,也浏览过一些介绍性质的文章,对这些概念有了大概的认知;或许你也会有深入研究的冲动,欢迎入坑,整理一下入坑的准备工作 ~_~机器学习部分:先列个书单:《机器学习–周志华》 可以边看边补数学基础知识:概率论,数理统计,转载 2018-01-04 09:26:49 · 461 阅读 · 0 评论 -
转载-Coursera台大机器学习基础课程学习笔记1 -- 机器学习定义及PLA算法
出处:http://www.cnblogs.com/HappyAngel/p/3456762.html 最近在学习林轩田老师的<机器学习基石>这门课,看到这篇文章很好,就转载了。 我认为在后面推导中有一点小问题,不过推导本身的思路完全没问题,应该是原作者写的时候粗心了一点原文: 最近在跟台大的这个课程,觉得不错,想把学习笔记发出来跟大家分享下,有错误希望大家指正。一机器转载 2017-12-31 21:50:10 · 344 阅读 · 0 评论