
机器学习
csshuke
这个作者很懒,什么都没留下…
展开
-
How a Kalman filter works, in pictures
I have to tell you about the Kalman filter, because what it does is pretty damn amazing.Surprisingly few software engineers and scientists seem to know about it, and that makes me sad because it i转载 2018-01-24 16:50:34 · 503 阅读 · 0 评论 -
K近邻法(KNN)原理小结
K近邻法(k-nearst neighbors,KNN)是一种很基本的机器学习方法了,在我们平常的生活中也会不自主的应用。比如,我们判断一个人的人品,只需要观察他来往最密切的几个人的人品好坏就可以得出了。这里就运用了KNN的思想。KNN方法既可以做分类,也可以做回归,这点和决策树算法相同。 KNN做回归和分类的主要区别在于最后做预测时候的决策方式不同。KNN做分类预测时,一般是选择多转载 2017-07-14 19:01:39 · 1133 阅读 · 0 评论 -
朴素贝叶斯算法原理小结
在所有的机器学习分类算法中,朴素贝叶斯和其他绝大多数的分类算法都不同。对于大多数的分类算法,比如决策树,KNN,逻辑回归,支持向量机等,他们都是判别方法,也就是直接学习出特征输出Y和特征X之间的关系,要么是决策函数Y=f(X)Y=f(X),要么是条件分布P(Y|X)P(Y|X)。但是朴素贝叶斯却是生成方法,也就是直接找出特征输出Y和特征X的联合分布P(X,Y)P(X,Y),然后用P(Y|X)=P(转载 2017-07-14 18:59:42 · 646 阅读 · 0 评论 -
scikit-learn 朴素贝叶斯类库使用小结
之前在朴素贝叶斯算法原理小结这篇文章中,对朴素贝叶斯分类算法的原理做了一个总结。这里我们就从实战的角度来看朴素贝叶斯类库。重点讲述scikit-learn 朴素贝叶斯类库的使用要点和参数选择。1. scikit-learn 朴素贝叶斯类库概述 朴素贝叶斯是一类比较简单的算法,scikit-learn中朴素贝叶斯类库的使用也比较简单。相对于决策树,KNN之类的算法,朴素贝叶转载 2017-07-14 18:56:15 · 742 阅读 · 0 评论 -
scikit-learn K近邻法类库使用小结
在K近邻法(KNN)原理小结这篇文章,我们讨论了KNN的原理和优缺点,这里我们就从实践出发,对scikit-learn 中KNN相关的类库使用做一个小结。主要关注于类库调参时的一个经验总结。1. scikit-learn 中KNN相关的类库概述 在scikit-learn 中,与近邻法这一大类相关的类库都在sklearn.neighbors包之中。KNN分类树的类是KNe转载 2017-07-14 18:54:01 · 922 阅读 · 0 评论 -
用scikit-learn和pandas学习线性回归
from http://www.cnblogs.com/pinard/p/6016029.htmlby 刘建平Pinard十年码农,对数学统计学,数据挖掘,机器学习,大数据平台,大数据平台应用开发,大数据可视化感兴趣。对于想深入了解线性回归的童鞋,这里给出一个完整的例子,详细学完这个例子,对用scikit-learn来运行线性回归,评估模型不会有什么问题了。1. 获取数据,定义问题转载 2017-07-13 16:53:06 · 499 阅读 · 0 评论 -
机器学习算法与Python实践之(七)逻辑回归(Logistic Regression)
版权声明:本文为博主原创文章,未经博主允许不得转载。机器学习算法与Python实践之(七)逻辑回归(Logistic Regression)zouxy09@qq.comhttp://blog.youkuaiyun.com/zouxy09 机器学习算法与Python实践这个系列主要是参考《机器学习实战》这本书。因为自己想学习Python,然后也想对一些机器学习算法加转载 2017-04-15 13:56:38 · 435 阅读 · 0 评论 -
机器学习&数据挖掘笔记(常见面试之机器学习算法思想简单梳理)
前言: 找工作时(IT行业),除了常见的软件开发以外,机器学习岗位也可以当作是一个选择,不少计算机方向的研究生都会接触这个,如果你的研究方向是机器学习/数据挖掘之类,且又对其非常感兴趣的话,可以考虑考虑该岗位,毕竟在机器智能没达到人类水平之前,机器学习可以作为一种重要手段,而随着科技的不断发展,相信这方面的人才需求也会越来越大。 纵观IT行业的招聘岗位,机器学习之类的岗位还是挺转载 2017-04-14 14:32:13 · 648 阅读 · 0 评论 -
支持向量机通俗导论(理解SVM的三层境界)
支持向量机通俗导论(理解SVM的三层境界)作者:July 。致谢:pluskid、白石、JerryLead。说明:本文最初写于2012年6月,而后不断反反复复修改&优化,修改次数达上百次,最后修改于2016年11月。声明:本文于2012年便早已附上所有参考链接,并注明是篇“学习笔记”,且写明具体参考了pluskid等人的文章。文末转载 2017-04-11 16:13:36 · 652 阅读 · 0 评论 -
机器学习是什么——周志华
机器学习现在是一大热门,研究的人特多,越来越多的新人涌进来。不少人其实并没有真正想过,这是不是自己喜欢搞的东西,只不过看见别人都在搞,觉着跟大伙儿走总不会吃亏吧。问题是,真有个“大伙儿”吗?就不会是“两伙儿”、“三伙儿”?如果有“几伙儿”,那到底该跟着“哪伙儿”走呢?很多人可能没有意识到,所谓的machine learning community,现在至少包含了两个有着完全转载 2017-04-09 17:23:03 · 319 阅读 · 0 评论 -
为什么不读顶级会议论文?
看了版上很多贴子,发现很多版友都在问“热门研究方向”、“最新方法”等。有同学建议国内某教授的教材、或者CNKI、或者某些SCI期刊。每当看到这种问题,我都有点纳闷,为什么不去读顶级会议上的论文?我无意否认以上文献的价值,但是在机器学习、计算机视觉和人工智能领域,顶级会议才是王道。国内教材和CNKI上的基本是N年前老掉牙的东西。有人会质疑这些会议都只是EI。是的,这的确非常特殊:在许多其转载 2017-04-09 17:22:21 · 2026 阅读 · 5 评论 -
信息熵与信息增益的理解
一 信息熵1948年香农提出了信息熵(Entropy)的概念。假如事件A的分类划分是(A1,A2,...,An),每部分发生的概率是(p1,p2,...,pn),那信息熵定义为公式如下:吴军在《数学之美系列四--怎样度量信息?》中认为信息熵的大小指的的是了解一件事情所需要付出的信息量是多少,这件事的不确定性越大,要搞清它所需要的信息量也就越大,也就是它的信息转载 2017-04-07 13:16:44 · 7030 阅读 · 0 评论 -
最小二乘法小结
最小二乘法是用来做函数拟合或者求函数极值的方法。在机器学习,尤其是回归模型中,经常可以看到最小二乘法的身影,这里就对我对最小二乘法的认知做一个小结。1.最小二乘法的原理与要解决的问题 最小二乘法是由勒让德在19世纪发现的,原理的一般形式很简单,当然发现的过程是非常艰难的。形式如下式: 目标函数 = Σ(观测值-理论值)2 观测值就是我们的多组转载 2017-07-14 20:10:20 · 494 阅读 · 0 评论 -
决策树算法原理
决策树算法在机器学习中算是很经典的一个算法系列了。它既可以作为分类算法,也可以作为回归算法,同时也特别适合集成学习比如随机森林。本文就对决策树算法原理做一个总结,上篇对ID3, C4.5的算法思想做了总结,下篇重点对CART算法做一个详细的介绍。选择CART做重点介绍的原因是scikit-learn使用了优化版的CART算法作为其决策树算法的实现。1. 决策树ID3算法的信息论基础转载 2017-07-15 01:27:51 · 2091 阅读 · 0 评论 -
什么是机器学习:一次权威定义之旅
在这篇文章中,我想要解决一个很简单的问题:机器学习是什么?你可能对机器学习感兴趣或者稍稍了解。如果有一天你和朋友或同事聊起机器学习,那么一些人可能会问你“机器学习是什么”。那么,此文的目标就是告诉你一些可参考的定义,以及一个现成的、容易记起的趣味定义。我们将从了解该领域的权威书籍上关于机器学习的标准定义出发,并且以得出机器学习的一种程序员定义和我们被问及什么是机器学习时一个随时可以使用的现转载 2017-12-03 06:52:52 · 555 阅读 · 0 评论 -
Ubuntu-Python安装 scipy,numpy,matplotlib
sudo apt-get install python-scipysudo apt-get install python-numpysudo apt-get install python-matplotlibpythonimport scipyimport numpyimport pylabscipy.test()numpy.test()pylab.test()转载 2017-12-10 19:56:55 · 329 阅读 · 0 评论 -
IEEE深度对话Facebook人工智能负责人Yann LeCun:让深度学习摆脱束缚
本文原载IEEE,作者Lee Gomes,由机器之心翻译,微信公众号:机器之心(ID:Almosthuman2014)人工智能经历了几次低潮时期,这些灰暗时光被称作“AI寒冬”。这里说的不是那段时期,事实上,人工智能如今变得异常火热,以至于科技巨头谷歌、Facebook、苹果、百度和微软正在争抢该领域的领袖人物。当前人工智能之所以引起大家的兴奋,在很大程度上是源于“卷积神经网络”的研究转载 2017-09-21 04:15:57 · 492 阅读 · 0 评论 -
CLI or GUI --- 要高效还是要易用? (该文作者的功底真的很深厚啊)
目录(?)[+] 这篇文章很棒 转载过来欣赏地址httpwwwcnitblogcomaddonearchive2008010838581html 要高效还是要易用谈CLI与GUI前言定义谈一些奇怪的论点两者的特点CLI的哲学GUI的哲学协同工作总结 这篇文章很棒, 转载过来欣赏!地址:http转载 2017-09-27 10:41:03 · 402 阅读 · 0 评论 -
Machine Learning Yearning book draft - 读记(前14章)
本篇文章由作者授权转载,转自知乎.首先,非常感谢Andrew NG对于本书《Machine Learning Yearning》的贡献,本书总共大概50多章,昨天收到了1-12章(1-2页/章,总共23页)的手稿,让各位读者一睹为快。附上书的下载地址:1-12章https://gallery.mailchimp.com转载 2017-08-22 16:38:35 · 841 阅读 · 0 评论 -
一个机器学习博士的忠告
纯属转载,有参考价值,更要共勉! 知乎原文题主似乎没有明确自己是博士生,以下假设为博士生。1、首先,请以一个局外人的理智角度,对你的导师进行如下分类: ① 圈内大牛,高水平论文很多,目前自己仍在亲力亲为参与科研工作,请转2 ② 简历里面有一些高水平论文,但是似乎并不能算是大牛,请转3 ③ 其他情况,请转42、这一种情况是比较理想的,个人认为你的关于论文的疑惑,其实可以尽转载 2017-07-25 14:31:34 · 2725 阅读 · 0 评论 -
关于机器学习的领悟与反思(张志华北大数学系教授)
张志华教授:机器学习——统计与计算之恋COS访谈第十九期:张志华教授张志华老师教学之感悟部分共享资料见链接: https://pan.baidu.com/s/1bpGc0nP 密码: 49ei ◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆◆张志华北京大学数学学院教授,北转载 2017-07-24 15:27:08 · 1260 阅读 · 0 评论 -
Win7配置CUDA并搭建基于Theano框架的GPU加速环境
原文链接:http://blog.youkuaiyun.com/m624197265/article/details/45700619版权声明:本文为博主原创文章,未经博主允许不得转载。目录(?)[+] 今天终于买回来了一块算是较好的显卡,渴望已久的GPU加速终于实现了,于是进行了下面的一系列配置。一、 硬件环境信息 台式转载 2017-07-31 06:28:49 · 526 阅读 · 0 评论 -
最大熵模型原理小结
最大熵模型(maximum entropy model, MaxEnt)也是很典型的分类算法了,它和逻辑回归类似,都是属于对数线性分类模型。在损失函数优化的过程中,使用了和支持向量机类似的凸优化技术。而对熵的使用,让我们想起了决策树算法中的ID3和C4.5算法。理解了最大熵模型,对逻辑回归,支持向量机以及决策树算法都会加深理解。本文就对最大熵模型的原理做一个小结。1. 熵和条件熵的回顾转载 2017-07-15 01:28:03 · 506 阅读 · 0 评论 -
机器学习算法比较
决策树中很重要的一点就是选择一个属性进行分枝,因此要注意一下信息增益的计算公式,并深入理解它。如果样本数量大于特征数目,这时可以使用非线性核,将样本映射到更高维度,一般可以得到更好的结果;作者:刘伟帝本文主要回顾下几个常用算法的适应场景及其优缺点!(提示:部分内容摘自网络)。机器学习算法太多了,分类、回归、聚类、推荐、图像识别领域等等,要想找到一个合适算法真转载 2017-03-19 23:23:30 · 689 阅读 · 0 评论 -
如何进行良好的程序设计(1)
关于程序设计,掐指算来也写了快有十年的程序了,之前很长的一段时间都是以算法类的竞赛为主,对于程序结构的设计,总是胡乱写写,能跑通就算ok了。来公司后, 接触了一些大一点的项目的设计,设计的重要性就凸现出来了。 为了更好的设计(不能说到完美,但是至少不要把自己和用户弄晕),我写点自己的一些感悟(有自己思考的,也有和公司的前辈讨论得到的),不能说本系列是一篇指导性的文章,权当是抛砖引玉,转载 2017-03-04 16:52:17 · 790 阅读 · 0 评论 -
信息论的熵
版权声明:本文为博主原创文章,未经博主允许不得转载。目录(?)[+]1. 前言 熵的概念最早起源于物理学,用于度量一个热力学系统的无序程度。 在信息论里则叫信息量,即熵是对不确定性的度量。从控制论的角度来看,应叫不确定性。信息论的创始人香农在其著作《通信的数学理论》中提出了建立在概率统计模型上的信息度量。他把转载 2016-09-13 21:14:59 · 791 阅读 · 0 评论 -
机器学习物语(4):PAC Learnability
这次我们要介绍的话题是 PAC Learnability ,直译过来就是 PAC 可学习性。可学习性听起来和计算理论里的可计算性是很类似的,当然其实也确实是类似的,而且这里也包含一些计算理论里的内容。对比来看,这里研究的主要是三个问题:计算理论研究什么时候一个问题是可被计算的,而 PAC 学习理论,或者说计算学习理论 (Computational Learning Theory) 主要研究转载 2016-08-16 15:44:40 · 6571 阅读 · 3 评论 -
机器学习物语(3):回归问题
上一次讲到 Empirical Risk Minimization (ERM) 算法在有限个函数的空间里学习是可行的,然而这样的结果似乎用处不大,因为许多机器学习中用到的函数空间都是无限的。我们还提到,为了解决这个问题,需要一个“将无限化为有限”的工具。如果是对统计学习理论有一定了解的同学,可能会觉得我应该马上要讲 VC Dimension 了:如果 F 的 VC 维是有限的,那么即使它本转载 2016-08-16 15:43:15 · 758 阅读 · 0 评论 -
机器学习物语(2):大数定理军团
机器学习理论帝国崛起,大数定理军团功不可没,称之为军团毫不夸张,在前军先锋强大数定理和副将弱大数定理后面,是铠甲上刻着“Concentration of Measure”的古老印记的战士们,不妨暂且忽略他们之间乱七八糟的“血缘”关系,而罗列一些名字:Chebyshev 不等式、Markov 不等式、 Bernstein 不等式、 Hoeffding 不等式、 McDiarmid 不等式转载 2016-08-16 15:41:39 · 873 阅读 · 0 评论 -
机器学习物语(1):世界观设定
我想如今机器学习 (Machine Learning) 的重要性(不论是在学术界还是在工业界)已经不用再多强调了,比如说 2010 年的图灵奖得主 Leslie Valiant 就是学习理论 (Learning Theory) 的一位先驱大牛,正是他提出了“可能近似正确” (Probably Approximately Correct, PAC) 模型——每次念一念 PAC 的中文翻译就觉得好转载 2016-08-16 15:40:12 · 1828 阅读 · 0 评论 -
机器学习资料整理,收藏了不后悔!
学习Machine Learning也有很长一段时间了,前段时间在paper中应用了GTB(Gradient Tree Boosting)算法。在我的数据集上GTB的performance比Random Forest要稍微强一点,整个experiment做完之后,有许多东西都来不及及时整理,很多都遗忘了。打算接下来的时间里,好好整理下自己的学习资料,这份资料绝对不是一时半会就整理得完的,先开个头吧转载 2016-08-16 14:25:46 · 838 阅读 · 0 评论 -
从机器学习谈起
在本篇文章中,我将对机器学习做个概要的介绍。本文的目的是能让即便完全不了解机器学习的人也能了解机器学习,并且上手相关的实践。这篇文档也算是EasyPR开发的番外篇,从这里开始,必须对机器学习了解才能进一步介绍EasyPR的内核。当然,本文也面对一般读者,不会对阅读有相关的前提要求。在进入正题前,我想读者心中可能会有一个疑惑:机器学习有什么重要性,以至于要阅读完这篇非常长的文章呢?我转载 2016-07-08 10:31:10 · 364 阅读 · 0 评论 -
机器学习入门书单
继NLP之后,我又开了ML这个大坑。这是因为NLP涉及到太多的ML模型,仅仅拿过来用的话,我实现的HanLP已经快到个人极限了。而模型背后的原理、如何优化、如何并行化等问题,都需要寻根求源才能解决。所以我找了个书单自学,电子书为主,顺便分享出来。ML书单│ 李航.统计学习方法.pdf│ 机器学习及其应用.pdf│ All of Statistics - A Concise Cou转载 2016-07-18 12:23:01 · 419 阅读 · 0 评论 -
统计学习笔记(2)——感知机模型
感知机学习旨在求出将训练数据集进行线性划分的分类超平面,为此,导入了基于误分类的损失函数,然后利用梯度下降法对损失函数进行极小化,从而求出感知机模型。感知机模型是神经网络和支持向量机的基础。下面分别从感知机学习的模型、策略和算法三个方面来介绍。1. 感知机模型 感知机模型如下:f(x)= sign(w*x+b) 其中,x为输入向量,sign为符号函数转载 2016-07-14 17:48:06 · 495 阅读 · 1 评论 -
统计学习笔记(1)——统计学习方法概论
1.统计学习 统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科,也称统计机器学习。统计学习是数据驱动的学科。统计学习是一门概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域的交叉学科。 统计学习的对象是数据,它从数据出发,提取数据的特征,抽象出数据的模型,发现数据中的知识,又回到对数据的分析与预转载 2016-07-14 17:46:43 · 478 阅读 · 0 评论 -
机器学习入门:机器学习概论
什么是机器学习? 在1959年,Arthur Samuel:不用编程去指定机器做什么,而是让机器有能力自己学习;在1998年,Tom Mitchell:首先定义任务T,经验E,表现P,如果机器有一个任务T,随着经验E的增多,表现P也会变好,则表示机器正在经验E中学习; 以上就是对机器学习的两个定义; 机器学习在生活中也处转载 2016-07-12 10:40:55 · 345 阅读 · 0 评论 -
BRIEF HISTORY OF MACHINE LEARNING
My subjective ML timeline (click for larger) Since the initial standpoint of science, technology and AI, scientists following Blaise Pascal and Von Leibniz ponder about a machine that is int转载 2016-10-12 00:36:27 · 473 阅读 · 0 评论 -
机器学习简史
最近学习的重点不在机器学习上面,但是现代的学科就是这么奇妙,错综复杂,玩着玩着,你发现又回到了人工智能这一块。所以干脆好好整理下当下令很多人如痴如醉,但又不容易入门的机器学习。一来给大多数还没有入门的人一点宏观概念,二来让我自己以后找解决办法的时候更有头绪。故此文不是给想快速上手的工程师的菜单,更像一篇娓娓道来的武侠小说,看看人工智能世界的先驱们是如何开宗创派的。转载 2016-10-12 01:19:34 · 909 阅读 · 0 评论 -
机器学习中的数学(5)-强大的矩阵奇异值分解(SVD)及其应用
版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系wheeleast@gmail.com。也可以加我的微博: @leftnoteasy前言: 上一次写了关于PCA与LDA的文章,PCA的实现一般有两种,一种是用特征值分解去实现的,一种是用转载 2017-03-04 16:50:24 · 914 阅读 · 0 评论 -
机器学习中的数学(4)-线性判别分析(LDA), 主成分分析(PCA)
版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系wheeleast@gmail.com前言: 第二篇的文章中谈到,和部门老大一宁出去outing的时候,他给了我相当多的机器学习的建议,里面涉及到很多的算法的意义、学习方法等等。一宁上次给转载 2017-03-04 16:49:49 · 444 阅读 · 0 评论