
机器学习
文章平均质量分 81
saltriver
You're On Your Own.
展开
-
K最近邻算法(KNN)
K最近邻 (k-Nearest Neighbors,KNN) 算法是一种分类算法,也是最简单易懂的机器学习算法,没有之一。1968年由 Cover 和 Hart 提出,应用场景有字符识别、文本分类、图像识别等领域。该算法的思想是:一个样本与数据集中的k个样本最相似,如果这k个样本中的大多数属于某一个类别,则该样本也属于这个类别。还是直接讲例子最好懂,一直没找到好的例子,就改造了下Peter Har原创 2016-09-11 08:56:56 · 52901 阅读 · 12 评论 -
高考与机器学习训练测试
机器学习的一个前提是有大量的数据,机器学习的过程就是对这些大量数据进行学习训练,获得一个能用于预测的模型,从而在面对新的数据时,我们能进行准确的预测。 怎么理解呢?回想我们读高三的时候,是不是每天都在做题,为最后的高考做准备。我们从题库中不断学习,不断做题,然后就掌握了各种知识和一些解题方法,最后在高考中取得好成绩,考上了清华北大,985,211。机器学习的大量数据就好像是高三的题库,而对大量原创 2017-04-22 11:31:48 · 1498 阅读 · 0 评论 -
垃圾邮件是如何用贝叶斯方法过滤掉的
垃圾邮件曾经是一个令人非常头痛的问题,长期困扰着邮件运营商和用户。据统计,在2005年,用户收到的电子邮件中80%以上是垃圾邮件。但你有没有感觉到,这些年来,你收到的垃圾邮件越来越少了,甚至已经几乎感受不到它们的存在。背后一定有什么原因,那就是运营商采用了垃圾邮件过滤方法。一封邮件,判断它是正常邮件还是垃圾邮件,很明显是一个“分类”问题。一谈到“分类”,大家不约而同想到的方法是找“特征”。就像同是猫原创 2017-05-20 12:02:49 · 9014 阅读 · 1 评论 -
分类模型的评估方法-正确率(Accuracy)
我们知道,机器学习的一大任务是”分类”。我们构建了一个分类模型,通过训练集训练好后,那么这个分类模型到底预测效果怎么样呢?那就需要进行评估验证。评估验证当然是在测试集上。问题是,我通过什么评估这个分类模型呢?也就是说我们怎么给这个模型打分呢?想想我们上学时的考试,总分100分,总共100道题,作对1题给1分,最后会有一个得分,例如80分,90分,换算成百分比就是80%,90%,这是我们自然而然能想到原创 2017-06-29 21:32:49 · 18398 阅读 · 0 评论 -
分类模型的评估方法-精确率(Precision)
上一篇文章中,提到正确率(Accuracy)是机器学习分类任务中过得一个模型评估方法,并指出正确率(Accuracy)虽然简单直观,但在很多时候并不是一个真正正确的评估指标。那还有什么评估方法呢?我们还是举地震、癌症、信用卡交易欺诈的例子,在这些情况下,我们显然关心的是有没有地震,有没有癌症,有没有欺诈交易。如果有地震、有癌症、有欺诈,竟然预测错了,这显然是非常严重的后果。那么,要怎样评估计算呢?这原创 2017-06-29 21:53:46 · 4325 阅读 · 0 评论 -
分类模型的评估方法-召回率(Recall)
前2篇文章,介绍了正确率(Accuracy)和精确率(Precision)的评估方法。其中指出了正确率(Accuracy)虽然简单直观,但在很多时候并不是一个真正正确的评估指标。那么精确率(Precision)可能会有什么问题呢?我们还是看看它的计算公式: Precision=真阳真阳+假阳Precision=真阳真阳+假阳Precision=\frac {真阳} {真阳+假阳}如果“假...原创 2017-06-30 20:39:04 · 14380 阅读 · 2 评论 -
分类模型的评估方法-F分数(F-Score)
前面介绍了机器学习中分类模型的精确率(Precision)和召回率(Recall)评估指标。对于Precision和Recall,虽然从计算公式来看,并没有什么必然的相关性关系,但是,在大规模数据集合中,这2个指标往往是相互制约的。理想情况下做到两个指标都高当然最好,但一般情况下,Precision高,Recall就低,Recall高,Precision就低。所以在实际中常常需要根据具体情况做出取舍原创 2017-06-30 20:59:37 · 94311 阅读 · 7 评论 -
独热编码
在数据样本中,有些特征不是连续值,而是一些离散值。举个网站访问数据例子: 表1 网站访问数据集序号性别所属区域使用浏览器1.MaleEuropeFirefox2.FemaleUSChrome3.原创 2017-07-24 21:26:55 · 6127 阅读 · 1 评论 -
K-means聚类算法
K-means算法是最简单的非监督学习算法,主要用于解决已知数据的聚类问题。其基本过程如下: (1)预先指定数值k;将数据集分成k个簇。 (2)随机确定k个中心位置点。 (3)计算各个数据点与k个中心点的距离。 (4)根据距离排序将该数据点分配给最邻近的中心,形成k个簇。 (5)计算每个簇的平均位置,作为新的中心点。 (6)重复步骤3-5直到簇不发生变化或达到最大迭代次数。 一、算法过原创 2017-07-24 21:37:30 · 6362 阅读 · 4 评论 -
特征缩放
在某些机器学习算法中,特征缩放是特征预处理的一个重要步骤。一、为什么要特征缩放举个例子,我们收集了一些人的个人数据,包括身高、体重、腰围等。这些人的特征数据有着不同的规格,取值范围也可能相差悬殊, 比如身高一般在1.5米-2米之间,体重一般在40公斤到100公斤之间,腰围一般在2尺和3.5尺之间。我们给出3个人的数据: 序号 身高 体重 腰围 衣服尺码 1 1.75 7原创 2017-07-25 23:23:28 · 2739 阅读 · 1 评论 -
你绝对能懂的“机器学习”(五)
我们发展人工智能,核心目的是为了用人工智能来解决我们日常工作生活中的各种问题,机器学习当然也不例外。那机器学习适合解决哪些问题呢? 首先,我们一定要知道,机器学习不是万能的。你要问机器学习能不能解决光速星际旅行,能不能造出飞碟、宇宙飞船、火箭,我肯定的说不能。你要问机器学习能不能预测房价、股市的涨跌,我只能说可能行,但非常难实现。因为涉及因素太多,训练出来的模型不可能精确。原创 2017-04-15 22:39:24 · 1077 阅读 · 3 评论 -
你绝对能懂的“机器学习”(三)
很多人对机器学习的边界范围似是而非,机器学习是人工智能吗?机器学习与大数据、云计算有什么关系?机器学习是不是就是数据挖掘?机器学习是不是就是算法,就是统计学?深度学习是不是机器学习的升级版?还记得以前的中关村开会的例子吗:你住在北京南4环以外,明天周一早上9点需要在北4环的中关村开个会,你给计算机输入出发地点,开会时间和开会地点,计算机根据很长一段时间内周一到周日每个时间段北京各条道路的堵车指数数据原创 2017-04-01 18:30:58 · 1269 阅读 · 0 评论 -
线性回归
回归(Regression)是从外语中翻译过来的词。翻译词的特点是带有原词的主要含义,但与原词表达的意思又不完全一样,甚至从中文字面上都难以理解,例如大家最熟悉的函数(function)这个翻译词。回归(Regression)简单理解可以说是“回去归来”,回归于事物的本来面目。那么什么是线性回归呢?先不说概念,先看一个实例。下表是北京市海淀区中关村地区近期成交二手房源的情况(数据来源于北京链家原创 2016-09-03 16:37:50 · 3321 阅读 · 3 评论 -
信息熵到底是什么
信息是我们一直在谈论的东西,但信息这个概念本身依然比较抽象。在百度百科中的定义:信息,泛指人类社会传播的一切内容,指音讯、消息、通信系统传输和处理的对象。 但信息可不可以被量化,怎样量化?答案当然是有的,那就是“信息熵”。早在1948年,香农(Shannon)在他著名的《通信的数学原理》论文中指出:“信息是用来消除随机不确定性的东西”,并提出了“信息熵”的概念(借用了热力学中熵的概念),来解原创 2016-11-06 21:53:48 · 121114 阅读 · 21 评论 -
逻辑回归是个什么逻辑
说到逻辑回归,可以先回顾下前期的文章《线性回归》。线性回归能够对连续值进行预测,如根据面积对房价进行预测。而在现实生活中,我们还有常见的另一类问题:分类问题。最简单的是二分类问题,即是与否的问题,如得病与否,交易是否合理,能否发放贷款,邮件是否垃圾邮件等。逻辑回归(logistic regression),虽然名字上有“回归”两字,但它实际应用的是处理分类问题(classification)。原创 2017-03-19 10:48:01 · 8854 阅读 · 3 评论 -
线性回归损失函数为什么要用平方形式
我们在前面的《线性回归》中了解到,对于训练数据样本(xi,yi)({x_i},{y_i}),我们有如下的拟合直线: yˆi=θ0+θ1∙xi{\widehat y_i} = {\theta _0} + {\theta _1} \bullet {x_i} 我们构建了一个损失函数: C=∑i=1n(yi−yˆi)2C = \sum\limits_{i = 1}^n {{{({y_i} - {{\w原创 2017-02-26 23:10:37 · 24246 阅读 · 12 评论 -
逻辑回归为什么使用对数损失函数
在前面介绍的《逻辑回归是个什么逻辑》中,我们构建的逻辑回归模型是: P(y=1|x;θ)=11+e−θTxP(y = 1|x;\theta ) = \frac{1}{{1 + {e^{ - {\theta ^T}x}}}} 在模型的数学形式确定后,剩下的就是如何去求解模型中的参数θ\theta。而在已知模型和一定样本的情况下,估计模型的参数,在统计学中常用的是极大似然估计方法。即找到一组参数θ\原创 2017-03-19 11:23:47 · 28743 阅读 · 5 评论 -
当我们说“分类”的时候,我们到底在说什么?
当我们说到机器学习时,一个很高频的词:“分类”,会经常出现,那当我们说“分类”的时候,我们到底在说什么?我查了很多博客、书籍、资料,提到“分类”,马上就进入“分类算法”的介绍描述,又是KNN(K最近邻算法),又是朴素贝叶斯等等。当然,可能是因为“分类”太常见了,所以大家都不肖一提。但对我们自己来说,要建立宏伟的“机器学习”能力大厦,一些基础的概念就好似大厦的地基,是必须稳固坚实的。我们看一看“分类”原创 2017-03-22 23:14:28 · 1164 阅读 · 0 评论 -
你绝对能懂的“机器学习”(一)
近几年,机器学习成为一个非常火爆的词语,几乎所有的人,或多或少都听说过它,但很多人对机器学习的理解似是而非。机器学习是人工智能吗?机器学习与大数据、云计算有什么关系?机器学习是不是就是数据挖掘?机器学习是不是就是算法,就是统计学?深度学习是不是机器学习的升级版?在这一系列文章中或许你能找到答案。同时,机器学习的应用范围越来越广,已经深入到各行各业中。因此,即使你不是互联网从业人员,了解和掌握机器学习原创 2017-03-29 21:52:36 · 1624 阅读 · 0 评论 -
你绝对能懂的“机器学习”(四)
我们知道,人类在发展、成长、生活的过程中积累了很多的经验。通过定期的对这些经验进行总结,获得了一些规律,这就叫“归纳”。利用这个“归纳”出来的“规律”,对类似的情况进行决策判断,从而指导我们的行动,这就是“演绎”。例如人类通过观察季节、农作物生长的变化,总结出历法、四季、24节气等规律来指导农业生产,这样,每到新的一年,我们就知道要春播,夏种,秋收,冬藏。当然,还有一些谚语像“朝霞不出门,晚霞行千里原创 2017-04-09 13:09:09 · 1474 阅读 · 0 评论 -
你绝对能懂的“机器学习”(二)
我们知道,机器学习近些年来有非常多的应用,例如无人驾驶汽车、棋类游戏、垃圾邮件检测、金融分析、语音识别、图像识别、自然语言处理、产品推荐等,那么机器学习和他们到底是什么关系呢?说到这,很多人会搬出“领域、技术、学科、专业、方法”等名词,来生搬硬套,这个是技术,那个是领域,这个是专业,那个是方法,结果是越解释越糊涂。其实我们仔细想一想,机器学习是什么?是不是一个技术,是;是不是一个领域,也是;是不是一原创 2017-04-01 13:51:20 · 1097 阅读 · 0 评论 -
损失函数为什么用平方形式(二)
我们在以前谈过《线性回归损失函数为什么要用平方形式》,除了这篇文章中提到的理由外。还有什么依据呢?平方形式的损失函数一般为: C=12∑i=1n(yi−yˆi)2C =\frac {1}{2} \sum\limits_{i = 1}^n {{{({y_i} - {{\widehat y}_i})}^2}} 这称为SSE(The sum of squares due to error),误原创 2017-08-31 19:11:13 · 9100 阅读 · 6 评论