
机器学习
牛麦康纳
主攻运维安全基础平台架构设计与落地
展开
-
机器学习入门前准备
本文主要介绍机器学习的意义、必备概念、开发步骤、基本公式、矩阵和高阶数组原创 2017-12-25 22:19:16 · 1974 阅读 · 0 评论 -
支持向量机-(1)
要开始SVM和SMO之前需要掌握以下几个概念:1超平面 将数据分割成两部分,一部分-1,一部分+1,最优的分割方式这个公式被称为超平面,n维的超平面是n-1维的,所以2维的超平面是线,3维的超平面是面,以此类推。 超平面表现方式为:f(x)=WX+b,求超平面的过程也就是求W和b的过程,其中W称为法向量,b称为截距。 2支持向量 距离超平面距离最近的两边的...原创 2018-01-09 17:20:36 · 741 阅读 · 0 评论 -
机器学习实践总结
机器学习的目的、必备知识、分类、学习步骤、降维技术、常用算法和结果分析原创 2018-01-28 18:12:49 · 3035 阅读 · 0 评论 -
使用Apriori进行关联分析
最典型的关联分析的案例就是沃尔玛的“啤酒与尿布”的故事,这个看起来完全不搭嘎的商品在经过对过去一年的数据分析后发现周四晚上奶爸们会来超市采购尿布同时顺手买走自己喜欢的啤酒,于是超市保证当天的备货充足并显眼的摆在一起,就可以创造销量奇迹。大规模数据集中寻找物品间的隐含关系被称作关联分析(association analysis)或者关联规则学习(association rule learning)。原创 2018-01-19 23:55:55 · 1344 阅读 · 0 评论 -
k-均值聚类
聚类是一种无监督的学习,它将相似的对象归到同一个簇中,簇内的对象越相似,聚类的效果越好。聚类与分类的最大不同在于,分类的目标事先已知,而聚类则不一样,是数据一种“自主”分类,属于无监督学习的范畴。聚类在这里要解决的2大问题是:1 怎么分? 2 分到哪里去?K-均值是发现给定数据集的k个簇的算法。簇个数k是用户给定的,每一个簇通过其质心 (centroid),即簇中所有点的中心来描述。通过这个定义可以解答我们上面的问题:1 怎么分? 根据距离分,质心是中心,它将是这一簇的中心点。2 分到哪里去原创 2018-01-17 18:17:01 · 844 阅读 · 0 评论 -
数据简化之PCA
降维,降低维度(dimensionality reduction),将高维数据经过技术处理降低到低纬度下,数据更容易进行处理,其相关特性更容易在数据中明显的显示出来。对数据简化的好处:1 使得数据集更容易使用2 降低很多算法的开销3 去除噪声4 使得结果易懂本文了解的降维技术叫主成分分析(Principal Component Analysis,PCA)在PCA中,数据从原来的坐标系转换到了新的坐标系,新坐标系的选择是由数据本身决定的。第一个新坐标轴选择的是原始数据中方差大的方向,第二个新原创 2018-01-24 21:22:31 · 886 阅读 · 0 评论 -
朴素贝叶斯算法
朴素贝叶斯与前一篇ID3决策树最大的不同之处是前者是给出最大可能性结果的猜想和概率,后者是“武断”的给定唯一分类结果。我们称之为“朴素”,是因为整个形式化过程只做原始、简单的假设。贝叶斯决策理论的核心思想,即选择具有高概率的决策。我们先加深下贝叶斯公式的了解,贝叶斯是基于概率的机器学习的基石。事件A在事件B(发生)的条件下的概率,与事件B在事件A的条件下的概率是不一样的;然而,这两者是有确定的关系...原创 2017-12-29 23:32:59 · 1066 阅读 · 0 评论 -
支持向量机-(2)
上一篇介绍了线性可分的数据如何利用支持向量机做超平面,如果非线性的数据能否利用支持向量机来划分? 结果是肯定的,需要引入核函数。核函数:在当前空间无法做线性划分时往往会映射到一个更高维的空间,在新的高维度空间中可以线性的概率将大大增加。这种从某个特征空间到另一个特征空间的映射是通过核函数来实现的。核函数可以被理解为这种转化的封装和解封装的过程,它能把数据从很难处理的方式转化成容易被处理的方式。原创 2018-01-10 18:01:52 · 443 阅读 · 0 评论 -
分类器集成和非均衡分类
本文主要分两大部分:弱学习器集成为强学习器,重点介绍了AdaBoosting非均衡分类器如何调优,重点介绍了ROC和代价函数原创 2018-01-11 22:03:35 · 1419 阅读 · 0 评论 -
线性回归
准备工作,需要了解矩阵的一些概念,不熟悉的需要自预习:1矩阵转置2矩阵内积3矩阵的代数余子式在n阶行列式中,把元素aₒₑi所在的第o行和第e列划去后,留下来的n-1阶行列式叫做元素aₒₑi的余子式,记作Mₒₑ,将余子式Mₒₑ再乘以-1的o+e次幂记为Aₒₑ,Aₒₑ叫做元素aₒₑ的代数余子式。4矩阵的行列式|A|https://zhidao.baidu.com/question/341289987....原创 2018-01-15 21:22:48 · 1301 阅读 · 0 评论 -
树回归
前面有篇讲过ID3决策树对标称型分类,其存在两大缺点:1 每个特性只能参与一次切分,对后续切分不再起作用。2 不能直接处理连续型特性。本篇介绍的树回归,本质上也是通过二叉树的方式来进行分类回归,但是解决了ID3决策树中的这些缺点。树回归分为3部分:树结构、叶子算法、树修剪。树结构是骨干,描述了你的树是个什么样子的树,维护所有的迭代,有哪些重要的节点,预留了哪些需要实现的算法。叶子算法是核心算法,每个叶子最终维护的内容是什么,如何进行误差判断和择优。树修剪是树回归完成后是否满足需要,对枝叶进原创 2018-01-16 17:21:39 · 509 阅读 · 0 评论 -
Logistic回归(2)
有了上一篇Logistics的核心代码和知识背景后,学习这个案例本身会很简单,这个案例除开加强了logistics算法的理解和实用价值之外,最大的意义在于教会我们在现实数据不理想有部分缺失的情况下我们要如何处理训练集。一般分两种情况,如果是结果数据丢失,这条数据就可以放弃了,因为无论代价多么昂贵,没有结果的数据我们不知道对齐如何分析。如果是特性数据丢失,一般有以下方法进行处理和使用:1 利用该特性的均值来替换2 利用特殊值来替换3 利用相似样本的该特性来替换4 利用其他的机器学习算法来预测该特性原创 2018-01-06 18:49:11 · 365 阅读 · 0 评论 -
Logistic回归(1)
什么是回归?假设现在有一些数据点,我们用一条直线对这些点进行拟合(该线称为最佳拟合直线),这个拟合过程就称作回归。 涉及到回归问题,我们借助Sigmoid函数来处理,Sigmoid函数:x=0时,函数值是0.5,x越大函数值越趋近于1,x越小函数值越趋近于0。如果x的刻度足够大Sigmoid函数也可以堪称一个单位阶跃函数。之所以采用Sigmoid来解决回归问题,是因原创 2018-01-02 01:20:38 · 1542 阅读 · 0 评论 -
ID3算法决策树
决策树 优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据。缺点:可能会产生过度匹配问题。适用数据类型:数值型和标称型 本篇介绍的是ID3算法决策树,ID3算法局限性只能划分标称型数据集,最终会被明确划分到某个分类中,在后面的代码中可以看得出是如何实现的。 决策树算法就是不断的判断和分支,但是数据有N列特性,这些特性进行判断的先后顺序就决定了决策算法的好坏。在划分...原创 2017-12-26 22:57:06 · 623 阅读 · 0 评论 -
k-近邻算法及代码
PS:本文中的大部分代码和案例数据来自《机器学习实践》这本书,但是原文中代码几乎没有注解,直接阅读难度很大,我在调试时增加了更详细的注解和步骤上的描述,方便理解。k-近邻算法原理是存在一个训练集,并且训练集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)...原创 2017-12-25 22:24:03 · 2589 阅读 · 0 评论 -
机器学习和深度网络新的收获
独热编码(one-hot code):只有一个比特为1其它全为0的一种码制,本质是对离散性分类进行数据化。距离0-9的数字进行独热编码,5的编码为:0000010000作用就是来处理非连续型数值特性,例如性别[男、女、其它]可以独热成[100,010,001];也可以计算之间的欧氏距离(推荐算法等用来求相似度);方便特征组合。过于稀疏的矢量也会带来新的问题:数据量庞大、计算量溢出。 奥卡姆剃刀定律...原创 2018-03-07 23:08:36 · 616 阅读 · 0 评论