
机器学习
文章平均质量分 67
zg1g
7年算法工程师,10年Python使用经验。
展开
-
机器学习:说说贝叶斯分类
1 进入例子假如我是一个质检员,现在接到了三箱零件需要检验,其中第一箱有10个零件,第二箱有20个零件,第三箱有15个。半小时过去了,检验的结果出炉,第一箱有1个不合格,第二箱有3个不合格,第三箱2个不合格。下午领导要来视察了,看看我验的货到底有没有问题,于是他随手拿了一个零件,我心里默默计算,领导拿到这个件为合格件的概率有多大?在这个问题中,领导拿的这个零件首先一定在这3个箱子中的某一个,因此样本原创 2017-11-23 12:44:50 · 542 阅读 · 0 评论 -
机器学习集成算法:XGBoost思想
机器学习集成算法:XGBoost思想01 — 回顾这几天推送了机器学习的降维算法,总结了特征值分解法,奇异值分解法,通过这两种方法做主成分分析(PCA)。大家有想了解的,可以参考: 数据预处理:PCA原理推导 数据降维处理:PCA之特征值分解法例子解析 数据降维处理:PCA之奇异值分解(SVD)介绍 数据降维:特征值分解和奇异值分解的实战分析至此,已经总结了机器学习部分常用的回归,分类,原创 2017-12-11 12:21:31 · 1089 阅读 · 0 评论 -
机器学习:正则化到底是怎么一回事?
1 L1和L2正则化项 2 L1和L2的作用 3 L1如何做到稀疏 4 L2如何做到防止过拟合 4 总结本文首发在《算法channel》公众号在最近的推送中,先后总结了最小二乘法的原理,两个求解方法:直接法和梯度下降,最后利用这两种思路进行了python实战;之后阐述了OLS算法使用的前提是必须满足数据集无多重共线性,因为它是无偏估计,这也带来了它非常惧怕多重共线性问题,在面对这些数据时,原创 2017-11-17 08:30:49 · 6159 阅读 · 0 评论 -
机器学习高斯混合模型(中篇):聚类求解
《实例》阐述算法,通俗易懂,助您对算法的理解达到一个新高度。包含但不限于:经典算法,机器学习,深度学习,LeetCode 题解,Kaggle 实战。期待您的到来!01 — 回顾昨天,介绍了高斯混合模型(GMM)的一些有意思的小例子,说到高斯混合能预测出每个样本点属于每个簇的得分值,这个具有非常重要的意义,大家想了解这篇推送的,请参考: 机器学习高斯混合模型:聚类原理分析(前篇)02原创 2017-12-01 09:36:04 · 822 阅读 · 0 评论 -
机器学习高斯混合模型:聚类原理分析(前篇)
01 — 回顾近几天,分析了期望最大算法的基本思想,它是用来迭代求解隐式变量的利器,我们举例了两地的苹果好坏分布为例来求解隐式参数,苹果的出处,进而求出烟台或威海的苹果好坏的二项分布的参数:好果的概率。关于二项分布和离散式随机变量的基础理论知识,请参考: 机器学习储备(11):说说离散型随机变量 机器学习储备(12):二项分布的例子解析注意在求解烟台或威海的好果概率这个分布参数时,我们在每个原创 2017-11-30 08:27:35 · 3415 阅读 · 0 评论 -
机器学习储备(12):二项分布的例子解析
01 — 二项分布如果实验满足以下两种条件: 在每次试验中只有两种可能的结果,而且两种结果发生与否互相对立; 相互独立,与其它各次试验结果无关; 事件发生与否的概率在每一次独立试验中都保持不变。 则实验的结果对应的分布为二项分布。当试验次数为1时,二项分布服从0-1分布。02 — 例子解析例如,一堆苹果有好的,有坏的,从中取10次,定义随机变量:从中取得好苹果的个数原创 2017-11-29 19:27:10 · 10994 阅读 · 0 评论 -
机器学习储备(11):说说离散型随机变量
交流思想,注重分析,更注重通过实例让您通俗易懂。包含但不限于:经典算法,机器学习,深度学习,LeetCode 题解,Kaggle 实战。期待您的到来!01 — 包含的概念通过例子介绍以下几个主要概念: 随机变量的定义 不同的X取值也会不同 离散型随机变量 古典概率 离散型随机变量X=xi时的概率 分布函数02 — 例子阐述以上概念一堆苹果,数量一共有5个,有好的,有坏的,如果定义原创 2017-11-29 17:30:48 · 834 阅读 · 0 评论 -
机器学习:谈谈决策树
0 回顾前面谈了逻辑回归的基本原理及梯度下降推导过程,编码实现了逻辑回归的梯度下降算法,这是分类算法。今天,我们继续开启分类算法之旅,它是一种高效简介的分类算法,后面有一个集成算法正是基于它之上,它是一个可视化效果很好的算法,这个算法就是决策树。 1 一个例子有一堆水果,其中有香蕉,苹果,杏这三类,现在要对它们分类,可以选择的特征有两个:形状和大小,其中形状的取值有个:圆形和不规则形,大小的取值有:原创 2017-11-20 08:26:44 · 788 阅读 · 0 评论 -
机器学习储备(9):matplotlib绘图原理及实例
matplotlibmatplotlib 的对象体系非常严谨,为我们提供了巨大的方便性和使用效率。用户在熟悉了核心对象之后,可以轻易的定制图像。先来看看 Figure类,Axes类,直接调用Figure()构造函数,便得到一个fig实例,然后调用add_axes得到 axes实例。fig = plt.figure() # fig的图像坐标称为Figure坐标(此外还有一个数据坐标) ax原创 2017-11-18 07:59:13 · 4846 阅读 · 0 评论 -
机器学习高斯混合模型(后篇):GMM求解完整代码实现
《实例》阐述算法,通俗易懂,助您对算法的理解达到一个新高度。包含但不限于:经典算法,机器学习,深度学习,LeetCode 题解,Kaggle 实战。期待您的到来!01 — 回顾前面推送中,我们介绍了高斯混合模型(GMM)的聚类原理,以及聚类求解的公式推导,如果您想了解这部分,请参考之前的推送: 机器学习高斯混合模型:聚类原理分析(前篇) 机器学习高斯混合模型(中篇):聚类求解总结来说,GMM原创 2017-12-04 09:46:10 · 6820 阅读 · 0 评论 -
朴素贝叶斯分类器:例子解释
1 引言在昨天推送了用一个例子引入贝叶斯公式的基本思想,然后用贝叶斯公式对一个很简单的问题做分类,最后引出来一个问题:后验概率 P(c | x) 的求解转化为求解 P(c)和 P(x | c),P(c) 根据大数定律容易求得,所以 P(x | c)成为了最核心也是最迫切需要求解的问题。下面,借助一个例子解释它是如何求解的,这个求解思想有一个很朴素的名字:朴素贝叶斯分类器。 2 一堆苹果笔者比较喜欢原创 2017-11-25 10:03:15 · 1801 阅读 · 0 评论 -
图像处理中,outlier和inlier分别指什么?
可以这样理解: 如图所示,给定一些点(红+绿+黑)要求用这些数据点拟合椭圆。 以ransac拟合椭圆为例,可以看出,黄色椭圆为拟合结果, 红色点是由ransac随机选择用来拟合的数据点 黑色点是除红色点外距离椭圆距离小于某一阈值的点,而绿色点是距离椭圆距离大于这一阈值的点 那么,红色+黑色点即为内点,而绿色点为外点: RANSAC为Random Sample Conse转载 2017-06-29 08:23:05 · 20349 阅读 · 6 评论 -
机器学习期望最大算法:实例解析
01 回顾 已经分析了朴素贝叶斯分类,拉普拉斯修正,半朴素贝叶斯分类器,在这些理论阐述中,都带有详细的例子解释,通过例子理解相关的理论是一种快速消化公式和理论比较不错的方法。接下来,介绍一种非常经典的求解隐变量的算法,这也是一种经典的算法。让我们先从最大似然估计入手,在03节真正分析这种算法。 02 最大似然估计求分布参数给定一堆苹果,里面有好苹果,也有坏苹果。好果的分布满足某种概率分布,也就是拿到原创 2017-11-28 08:13:34 · 674 阅读 · 0 评论 -
机器学习:单词拼写纠正器python实现
01 朴素贝叶斯分类实战前面介绍了贝叶斯的基本理论,朴素贝叶斯分类器,拉普拉斯修正,文章的链接如下: 机器学习:说说贝叶斯分类 朴素贝叶斯分类器:例子解释 朴素贝叶斯分类:拉普拉斯修正 在这3篇推送中用例子详细阐述了贝叶斯公式和朴素贝叶斯如何做分类,以及如何修正一些属性某些取值概率。下面,借助朴素贝叶斯分类器的基本思想,编写一个单词拼写纠正器,它大致实现的功能如下: 如果用户输入的单词存在原创 2017-11-27 08:26:47 · 3690 阅读 · 1 评论 -
朴素贝叶斯分类:拉普拉斯修正
拉普拉斯修正上面通过这个例子折射处一个问题:训练集上,很多样本的取值可能并不在其中,但是这不并代表这种情况发生的概率为0,因为未被观测到,并不代表出现的概率为0 。正如上面的样本,看其他两个属性很可能属于好苹果,但是再加上颜色:青色,这三个属性取值组合在训练集中并未出现过,所以朴素贝叶斯分类后,这个属性取值的信息抹掉了其他两个属性的取值,在概率估计时,通常解决这个问题的方法是要进行平滑处理,常用拉普原创 2017-11-27 08:23:19 · 6035 阅读 · 0 评论 -
机器学习数据预处理:数据降维之PCA
请点击上面公众号,免费订阅。 《实例》阐述算法,通俗易懂,助您对算法的理解达到一个新高度。包含但不限于:经典算法,机器学习,深度学习,LeetCode 题解,Kaggle 实战。期待您的到来!01 — 回顾到现在,已经总结了机器学习的: 回归算法之最小二乘方,脊回归,套索回归; 分类算法之逻辑回归,决策树分类,朴素贝叶斯决策,半朴素贝叶斯决策 聚类算法之高斯混合模型,解决这个模型选择了原创 2017-12-05 22:55:11 · 1689 阅读 · 0 评论 -
高斯混合模型:不掉包实现多维数据聚类分析
《实例》阐述算法,通俗易懂,助您对算法的理解达到一个新高度。包含但不限于:经典算法,机器学习,深度学习,LeetCode 题解,Kaggle 实战。期待您的到来!01 — 回顾昨天实现推送了,GMM高斯混合的EM算法实现的完整代码,这是不掉包的实现,并且将结果和sklearn中的掉包实现做了比较:聚类结果基本一致,要想了解这个算法实现代码的小伙伴,可以参考:机器学习高斯混合模型:聚类原理分析(前原创 2017-12-05 09:06:20 · 3110 阅读 · 0 评论 -
机器学习逻辑回归:原理推导
前言到现在为止,我们通过大约1周的时间初步对机器学习是怎么一回事算是有一些基本的理解了,从最基本的线性回归入手,讨论了如何在拿到一堆数据时,先进行数据预处理(暂时未详细阐述,会在以后某个时间段详细论述),然后再假设模型(model)为线性模型,再带入数据通过直接求解法和梯度下降法求解模型的各个特征的权重参数,最后用脊回归和套索回归优化了普通最小二乘法回归,对L1和L2正则化有了进一步地认识。我们的整原创 2017-11-18 07:56:35 · 4781 阅读 · 0 评论 -
机器学习之线性回归:算法兑现为python代码
1 数据预处理 2 直接求解参数 3 梯度下降求参数 4 总结前面三天推送机器学习线性回归算法之最小二乘法,从假设到原理,详细分析了直接求解和梯度下降两种算法,接下来手动编写python代码实现线性回归的算法吧。 1 数据预处理在拿到一个数据集后,往往需要经过漫长的预处理过程,不要忽视这个看似与建立模型,求解模型无关的步骤,它其实非常重要的,为后续工作做好准备的一步。现在这节的重点不是在论述原创 2017-11-13 09:38:43 · 1697 阅读 · 0 评论 -
Numpy-range, arange
range查看 range 的帮助文档,help(range)help(range)解释如下Help on class range in module builtins:class range(object) | range(stop) -> range object | range(start, stop[, step]) -> range object | | Return a原创 2017-07-01 16:05:47 · 2147 阅读 · 0 评论 -
Numpy-复制操作
复制操作Numpy中复制操作有三种,分别总结。=Simple assignments make no copy of array objects or of their data. 这是高级语言如C#等引用类型,对a的引用加1。viewThe view method creates a new array object that looks ate the same data. 这个方法只是在原创 2017-07-01 16:29:58 · 6183 阅读 · 0 评论 -
入门-误差逆传播算法
定义误差逆传播算法(backpropagation BP算法)是迄今最成功的的神经网络算法。显示任务中使用神经网络时,大多是在使用BP算法进行训练。不仅适用于多层前馈神经网络,还可以用于其他类型的神经网络,训练递归。BP算法如下图的神经网络,有一隐式层,ll个神经元组成的输出层。 重点介绍标准的BP算法,也就是只考虑单个输入神经元节点的误差逆传播,研究的输入例为(xk,yk)(x_k,y_k),假原创 2017-06-26 22:30:49 · 9641 阅读 · 0 评论 -
斯坦福大学-大数据与数据挖掘学习资料
1 斯坦福数据挖掘 http://mmds.org/截图:2 厦门大学数据库实验室 http://dblab.xmu.edu.cn/原创 2017-07-06 08:35:52 · 2303 阅读 · 1 评论 -
Python-一个因浅复制和深复制引起的bug
通过一个leetcode的题目认识了解注意下python的深复制和浅复制问题。原创 2017-07-14 16:05:58 · 1945 阅读 · 1 评论 -
入门-神经元模型,感知机与多层网络
M-P模型1943年,McCulloch and Pitts抽象出了“M-P神经元模型”,神经元接受到来自nn个其他神经元传递过来的输入信号,通过带权重的值连接传递,神经元接受到的总输入值与神经元的阈值进行比较,通过激活函数(activation function)处理输出。激活函数理想中的激活函数如下图所示的阶跃函数,它将输入值映射为输出值0 (对应于神经元抑制)或 1(对应于神经元兴奋)。原创 2017-06-24 08:10:41 · 1995 阅读 · 0 评论 -
机器学习利用Anaconda搭建Python科学计算环境
机器学习利用Anaconda搭建Python科学计算环境原创 2017-06-08 21:31:46 · 2273 阅读 · 0 评论 -
python所有的内置模块官方索引
python所有的内置模块官方索引地址:https://docs.python.org/3/py-modindex.html原创 2017-07-02 10:47:53 · 1979 阅读 · 0 评论 -
python-list与set相互转换时的一个注意事项
list初始化,里面的元素是set,n1={"","I","II","III","IV","V","VI","VII","VIII","IX"} #1~9n10={"","X","XX","XXX","XL","L","LX","LXX","LXXX","XC"} #10~90n100={"","C","CC","CCC","CD","D","DC","DCC","DCCC","CM"} #10原创 2017-06-29 22:23:18 · 18889 阅读 · 0 评论 -
python与C, C++,C#一个计算精度的区别
python计算精度问题,如下所示,会自动保留精度 但在C, C++,C#中情况就不尽然,是的结果为01/(Math.Pow(10,3) = 0原创 2017-06-29 22:04:36 · 1552 阅读 · 0 评论 -
Numpy-基本操作
Numpy介绍NumPy系统是Python的一种开源的数值计算扩展。这种工具可用来存储和处理大型矩阵,比Python自身的嵌套列表(nested list structure)结构要高效的多(该结构也可以用来表示矩阵(matrix))。据说NumPy将Python相当于变成一种免费的更强大的MatLab系统。一个用python实现的科学计算包。包括:1、一个强大的N维数组对象Array;2、比较成熟原创 2017-07-01 12:39:56 · 5397 阅读 · 0 评论 -
机器学习笔记-分类和聚类基本概念
参考知乎回答分类分类是数据挖掘中的一项非常重要的任务,利用分类技术可以从数据集中提取描述数据类的一个函数或模型(也常称为分类器),并把数据集中的每个对象归结到某个已知的对象类中。从机器学习的观点,分类技术是一种有指导的学习,即每个训练样本的数据对象已经有类标识,通过学习可以形成表达数据对象与类标识间对应的知识。分类的目的是学会一个分类函数或分类模型(也常常称作分类器),该模型能把数据库中的数据项映射原创 2017-09-07 08:09:25 · 1678 阅读 · 0 评论 -
最小二乘法原理(后):梯度下降求权重参数
在上一篇推送中总结了用数学方法直接求解最小二乘项的权重参数,然而有时参数是无法直接求解的,此时我们就得借助梯度下降法,不断迭代直到收敛得到最终的权重参数。首先介绍什么是梯度下降,然后如何用它求解特征的权重参数,欢迎您的阅读学习。 1 梯度下降梯度是函数在某点处的一个方向,并且沿着该方向变化最快,变化率最大。沿着梯度这个方向,使得值变大的方向是梯度上升的方向,沿着使值变小的方向便是下降的方向。综上,梯原创 2017-11-12 07:27:37 · 8285 阅读 · 0 评论 -
机器学习之最小二乘法:背后的假设和原理
1 最小二乘法相关理论我们先从最基本但很典型的线性回归算法之最小二乘法说起吧,它背后的假设和原理您了解吗?本系列带来细细体会OLS这个算法涉及的相关理论和算法。参考推送:最小二乘法:背后的假设和原理(前篇) 2 最小二乘法原理(中):似然函数求权重参数似然函数的确是求解类似问题的常用解决方法,包括以后的解决其他模型的参数,也有可能用到似然函数。如果对似然函数无感觉,那么也请看一下下面的消息推送:最小原创 2017-11-11 19:22:39 · 4689 阅读 · 0 评论 -
「机器学习」:不得不知的概念(3)
在上一篇推送中我们总结了机器学习第一课:一些最最基本的概念,比如特征,训练集,维数,假设空间等,通过一个例子说明什么是机器学习的泛化能力。接下来,再通过一个例子说明什么是归纳偏好。 2 归纳偏好归纳偏好(inductive bias),机器学习算法在学习过程中对某种类型假设的偏好。任何一个有效的机器学习算法必有其归纳偏好,否则它原创 2017-11-09 08:34:01 · 1306 阅读 · 0 评论 -
「机器学习」:不得不知的概念(2)
回顾在上一篇推送中我们总结了机器学习第一课,一些最最基本的概念,比如特征,训练集,维数,假设空间等,接下来,继续介绍机器学习第二课,通过一个例子说明什么是机器学习的泛化能力,理解它有助于你了解机器学习为什么要解决过拟合问题。 泛化能力泛化能力(generalization),学得的模型适用于新样本的能力,是非常重要的能力。举个例子来说明什么是泛化能力。 就在我们上学那回,小明爱动脑筋,老师讲的题目不原创 2017-11-08 08:21:58 · 1579 阅读 · 0 评论 -
机器学习:不得不知的概念(1)
1 你会学到什么 2 不得不知 3 拿掉这个概念 4 总结 人工智能将是谷歌的最终版本。它将成为终极搜索引擎,可以理解网络上的一切信息。它会准确地理解你想要什么,给你需要的东西。我们现在还远远没有做到这一点。然而,我们能够逐渐接近,我们目前正在为此努力。Google CEO 拉里·佩奇 1 你会学到什么?接下来,在这个系列中您将会学系统性地入门机器学习,这个系列不会枯燥无味地去罗列知识点,原创 2017-11-07 08:20:18 · 1710 阅读 · 0 评论 -
初探贝叶斯(Bayes)公式
引例贝叶斯公式是考虑某事件已经发生,要考察引发该事件的各种原因的可能性大小。贝叶斯公式是决策中具有重要作用的公式公式原创 2017-09-21 19:57:41 · 1085 阅读 · 0 评论 -
机器学习笔记-评估方法
常用的方法: 1. 留出法(hold-out)直接将数据集D划分为两个互斥的集合,其中一个作为训练集S,另一个作为测试集T。 2. 交叉验证(cross validation) 3. 自助法(bootstrapping)是一个比较好的解决方案,直接以自动采样有放回的采样多次。原创 2017-09-12 10:35:08 · 412 阅读 · 0 评论 -
机器学习-基本术语
数据集(data set) 记录的集合,如(色泽=青绿;根蒂=蜷缩;敲声=浊响)示例(instance) 每条记录是关于一个事件或对象的描述,也称为样本。属性(attribute) 反映事件或对象在某方面的表现或性质的事项,例如色泽,根蒂等,又称为特征(feature)。属性上的取值,如青绿,浊响等,称为属性值(attribute value)。样本空间(sample space)原创 2017-06-08 22:36:28 · 596 阅读 · 0 评论 -
机器学习笔记-决策树到随机森林概念篇
参考百度百科基本概念分类器:分类器就是给定一个样本的数据,判定这个样本属于哪个类别的算法。例如在股票涨跌预测中,我们认为前一天的交易量和收盘价对于第二天的涨跌是有影响的,那么分类器就是通过样本的交易量和收盘价预测第二天的涨跌情况的算法。分裂:在决策树的训练过程中,需要一次次的将训练数据集分裂成两个子数据集,这个过程就叫做分裂。特征:在分类问题中,输入到分类器中的数据叫做特征。以上面的股票涨跌预原创 2017-09-08 08:57:09 · 944 阅读 · 0 评论