
机器学习
dianlei
这个作者很懒,什么都没留下…
展开
-
ML01 数据预处理
跟着github上的学习教程,对机器学习的知识进行再学习。着重练习代码编写和问题解决能力。github教程地址:https://github.com/MLEveryday/100-Days-Of-ML-Code/blob/master/Code/Day%201_Data_Preprocessing.md如上面的思维导图所示,所有的算法在运行之前,一般均需导入数据并对数据做简单的处理。...原创 2018-09-12 13:18:08 · 324 阅读 · 0 评论 -
ML16信息论
转载自GitHub:http://t.cn/E73win9《深度学习》 3.13 信息论信息论的基本想法是:一件不太可能的事发生,要比一件非常可能的事发生,提供更多的信息。该想法可描述为以下性质:非常可能发生的事件信息量要比较少,并且极端情况下,一定能够发生的事件应该没有信息量。比较不可能发生的事件具有更大的信息量。独立事件应具有增量的信息。例如,投掷的硬币两次正面朝上传递的信...转载 2018-10-15 16:23:53 · 197 阅读 · 0 评论 -
ML15理解MLE-MAP-贝叶斯公式
这一篇文章写的非常好:https://blog.youkuaiyun.com/u011508640/article/details/72815981理解几个要点:概率与统计贝叶斯公式概率函数与似然函数最大似然估计MLE(使得似然函数最大)最大后验概率MAP(不单单是使得似然函数最大,也要使得先验概率大。类似于正则化中加入惩罚项的思想,一般的正则化惩罚项是加法,而MAP中是利用的乘法)...转载 2018-10-15 16:23:17 · 293 阅读 · 0 评论 -
ML13生成模型与判别模型
转载自GitHub:http://t.cn/E76fhB6生成模型与判别模型监督学习的任务是学习一个模型,对给定的输入预测相应的输出这个模型的一般形式为一个决策函数或一个条件概率分布(后验概率):Y=f(X)orP(Y∣X)Y=f(X)\quad \text{or}\quad P(Y|X)Y=f(X)orP(Y∣X)决策函数:输入 X 返回 Y;其中 Y 与一个阈值比较,然后...转载 2018-10-14 09:38:50 · 187 阅读 · 0 评论 -
ML14先验概率与后验概率
转载自GitHub:http://t.cn/E76fhB6先验概率与后验概率先验概率,后验概率,似然概率,条件概率,贝叶斯,最大似然 - 优快云博客条件概率(似然概率)一个事件发生后另一个事件发生的概率。一般的形式为 P(X|Y),表示 y 发生的条件下 x 发生的概率。有时为了区分一般意义上的条件概率,也称似然概率先验概率事件发生前的预判概率可以是基于历史数据的统计...转载 2018-10-14 09:38:06 · 213 阅读 · 0 评论 -
ML12偏差与方差
偏差与方差的计算公式记在训练集 D 上学得的模型为:f(x;D)f(\boldsymbol{x};D)f(x;D)模型的期望预测为:f^(x)=ED[f(x;D)]\hat{f}(\boldsymbol{x})=\mathbb{E}_D[f(\boldsymbol{x};D)]f^(x)=ED[f(x;D)]偏差(Bias)bias2(x)=(f^(x)−y)...原创 2018-10-12 15:00:12 · 226 阅读 · 0 评论 -
ML11-常用距离度量方法
转载的这一篇文章,写的很好。文章内容就不贴了,只是想自己能够整理好思路。https://www.cnblogs.com/daniel-D/p/3244718.html转载 2018-10-12 14:59:29 · 218 阅读 · 0 评论 -
ML10-层次聚类
层次聚类含义:是构建簇层次结构的算法。从分配给自己簇的所有的数据点开始,然后两个距离最近的簇合并成一个簇,重复合并不同的簇,直到最后只剩下一个簇时,算法终止。聚类种类:凝聚:将每个对象当做一个单一的簇,将相似的簇进行合并,直到形成一个大的簇为止。类似于树状图。全连接的凝聚层次聚类方法:获取所有样本的距离矩阵将每个数据点作为一个单独的簇基于某一度量距离,合并两个簇更新矩阵距离...原创 2018-10-12 14:58:08 · 316 阅读 · 0 评论 -
ML09-K均值聚类
基本含义:将具有相似特性的数据点,分到同一个簇内,使得同簇之内的数据相较于簇外的数据更加的相似。关键计算:相似度度量的方法。计算同簇之内数据点之间的相似度,计算不同簇之间的相似度。计算距离/相似度有很多的方法,在K均值聚类方法中,经常使用的是欧氏距离。K均值聚类的目标是使得总体群内方差最小或者平方误差最小。聚类步骤:在数据中,随机生成K个初始均值通过关联每个观测值到最近的均值,...原创 2018-10-12 14:57:37 · 295 阅读 · 0 评论 -
ML08-反向传播
这篇文章是基本上都是引用别人写的文字。引用:作者:Anonymous链接:https://www.zhihu.com/question/27239198/answer/89853077来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。要回答题主这个问题“如何直观的解释back propagation算法?” 需要先直观理解多层神经网络的训练。机器学习可以...转载 2018-10-12 14:57:01 · 219 阅读 · 0 评论 -
ML07-梯度下降法
梯度下降法,是机器学习求解参数的利器。原创 2018-10-12 14:56:15 · 145 阅读 · 0 评论 -
ML06-随机森林
随机森林与决策树有着千丝万缕的联系,随机森林的思想包含了一种采用随机性来对抗过拟合,采用少数服从多数的一种思路,来民主决策确定分类。随机森林的参考文章:https://blog.youkuaiyun.com/mao_xiao_feng/article/details/52728164 对于随机森林的通俗理解...原创 2018-10-12 14:55:30 · 242 阅读 · 0 评论 -
ML05-支持向量机
支持向量机。前几天重新学习的支持向量机,现在已经过去有一段时间了。自己对其中的很多细节已经记不清了。现在利用思维导图回顾一下支持向量机:七月大神写过一篇文章,理解SVM的三层境界,https://blog.youkuaiyun.com/v_july_v/article/details/7624837...原创 2018-10-12 14:54:27 · 209 阅读 · 0 评论 -
ML04-决策树
之前写过一篇关于决策树的总结,这也是一篇关于决策树的总结。两篇参考文章的链接分别是:http://www.cnblogs.com/leoo2sk/archive/2010/09/19/decision-tree.html 算法杂货铺-分类算法之决策树https://blog.youkuaiyun.com/xbinworld/article/details/44660339 决策树Decision T...原创 2018-10-12 14:53:47 · 176 阅读 · 0 评论 -
ML03-K近邻
是什么是一种基于分类和回归的方法输入:实例的特征向量,对应于特征空间的点输出:实例的类别三大基本要素K的选择距离度量的方法分类决策规则...原创 2018-10-12 14:52:41 · 128 阅读 · 0 评论 -
ML02 数据归一化
数据归一化,对机器学习模型是非常重要的。做了很多漂亮的特征的工作之后,可能就会自然而然的加速模型的训练速度,提升结果准确率。是什么归一化将数据变小把有量纲表达式变为无量纲表达式为什么加速梯度下降求解最优解的速度提高结果精确度怎么做常用的归一化方法分类:直线型方法。极值法和标准差法折线型方法。三折线法曲线型方法。半正态分布参考文章:...原创 2018-09-14 08:57:42 · 162 阅读 · 0 评论 -
常用大数据分析方法
数据挖掘分析,最重要的是能够将数据转化为非专业人士也能够清除理解的有意义的见解。四类分析方法数据挖掘分析,可以被分为四类核心方法:描述型分析:发生了什么?是最常见的数据分析方法。在业务中,这种方法向数据分析师提供了重要指标和业务的衡量方法。例如:每月的营收和损失账单。数据分析师可以通过这些账单,获得大量的客户数据。了解客户的地理信息,就是“描述型分析”方法之一。利用可视化工具,能够有效...原创 2019-01-09 09:25:03 · 12395 阅读 · 0 评论