
机器学习实战
小小螺丝刀
这个作者很懒,什么都没留下…
展开
-
机器学习---KNN
一、概述kNN算法的核心思想:如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。K-NN可以看成:有那么一堆你已经知道分类的数据,然后当一个新数据进入的时候,就开始跟训练数据里的每个点求距离,然后挑离这个训练数据最近的K个点看看这几个点属于什么类型,然后用少数服从多数的原则,给新数据归类。二、KNN算法1.算...原创 2018-10-21 16:15:41 · 734 阅读 · 0 评论 -
机器学习---降维方法
1.PCA介绍主成分析(PCA):将高纬的特征向量合并称为低纬度的特征属性,是一种无监督 的降维方法。 算法目标是通过某种线性投影,将高维的数据映射到低维的空间中表 示,并且期望在所投影的维度上数据的方差最大(最大方差理论),以此使用较 少的数据维度,同时保留较多的原数据点的特性。线性变换=>新特征轴可由原始特征轴线性变换表征 线性无关=>构建的特征轴是正交的 主要...转载 2018-11-04 16:03:01 · 1450 阅读 · 0 评论 -
机器学习---随机森林
一、介绍随机森林就是通过集成学习的思想将多棵树集成的一种算法,它的基本单元是决策树,而它的本质属于机器学习的一大分支——集成学习(Ensemble Learning)方法。随机森林的名称中有两个关键词,一个是“随机”,一个就是“森林”。“森林”我们很好理解,一棵叫做树,那么成百上千棵就可以叫做森林了,这样的比喻还是很贴切的,其实这也是随机森林的主要思想–集成思想的体现。“随机”的含义我们会在下...原创 2018-11-03 12:30:17 · 1724 阅读 · 0 评论 -
机器学习---adaboost
一、介绍AdaBoost是一种迭代型的算法,其核心思想是针对同一个训练集训练不同的学习算法,即弱学习算法,然后将这些弱学习算法集合起来,构造一个更强的最终学习算法adaboost希望在下一轮训练时被上一个子分类器正确分类的样本权重和与被错误分类的样本权重和相等二、算法1.图解2.算法流程3.算法解释3.1.权重α3.2权重更新D三、优...原创 2018-11-02 10:12:50 · 760 阅读 · 0 评论 -
机器学习---集成学习
1.集成学习内容2.数学支撑集成学习的思想背后有比较成熟的数学理论作支撑,也即Valiant和Kearns提出的PAC (Probably approximately correct) 学习框架下的强可学习和弱可学习理论。 该理论指出:在PAC 的学习框架中,一个概念如果存在一个多项式的学习方法能够学习它,并且如果预测正确率很高,那么就称这个概念是强可学习的;如果正确率仅比随机猜测...原创 2018-11-02 09:31:53 · 337 阅读 · 0 评论 -
机器学习---强化学习资料
入门介绍:https://blog.youkuaiyun.com/cf2SudS8x8F0v/article/details/80796107详细介绍:https://blog.youkuaiyun.com/gsww404/article/details/79763003转载 2018-11-09 18:26:48 · 283 阅读 · 0 评论 -
机器学习---规则学习
基本概念规则 一条基本的规则如下: ⊕←f1∧f2∧f3⋯∧fl其中箭头右边的称为规则体,左边的部分称为规则头表示这条规则的结果。规则体有逻辑文字fkfk的合取式组成,其中的合取符号“∧∧”表示并且,每个fkfk都表示是一个对属性值布尔表达式。ll是规则提逻辑文字的个数,称为规则的长度。规则头“⊕⊕”表示规则所判定的目标类或者概念。冲突 规则集合中的每一条规则都可以看成是一个子模型,...转载 2018-11-09 17:26:24 · 562 阅读 · 0 评论 -
机器学习---Apriori
一、介绍Apriori算法是经典的挖掘频繁项集和关联规则的数据挖掘算法。关联规则的经典故事:美国的妇女们经常会嘱咐她们的丈夫下班后为孩子买尿布,而丈夫在买完尿布后又要顺手买回自己爱喝的啤酒,因此啤酒和尿布在一起被购买的机会很多。这个举措使尿布和啤酒的销量双双增加,并一直为众商家所津津乐道。二、基本概念项与项集:设itemset={item1, item_2, …, item_m}是...原创 2018-11-04 16:51:27 · 627 阅读 · 0 评论 -
机器学习---kmeans
一、简介K均值算法是一种聚类算法。 K均值聚类算法是发现给定数据集k个簇的算法。聚类是一种无监督的学习,将相似的对象归到同一个簇中。聚类与分类的最大不同在于分类的目标事先已知,而聚类则不知道。二、算法1.步骤1)随机在图中取K个种子点,或称为质心。(这里K=2)2)然后对图中的所有点求到这K个种子点的距离,假如点Pi离种子点Si最近,那么Pi属于Si点群。(下图中,我们...原创 2018-11-03 13:49:06 · 1634 阅读 · 0 评论 -
机器学习---决策树
一、简介1.什么是决策树决策树算法是一种归纳分类算法,它通过对训练集的学习,挖掘出有用的规则,用于对新集进行预测。1)决策树是附加概率结果的一个树状的决策图,是直观的运用统计概率分析的图法。2)预测模型。表示对象属性和对象值之间的一种映射。树中的每一个节点表示对象属性的判断条件,其分支表示符合节点条件的对象。3)树的叶子节点表示对象所属的预测结果。2.如何构造决策树...原创 2018-10-21 22:07:51 · 478 阅读 · 0 评论 -
机器学习---朴素贝叶斯
一、贝叶斯定理条件概率是指事件A在另外一个事件B已经发生条件下的发生概率,其基本求解公式为: P(A|B) = P(AB) / P(B)贝叶斯公式:其中: P(A)是A的先验概率或边缘概率。之所以称为"先验"是因为它不考虑任何B方面的因素。 P(B)是B的先验概率或边缘概率。 P(A|B)是已知B发生后A的条件概率,也由于得自B...原创 2018-10-21 22:31:34 · 257 阅读 · 0 评论 -
机器学习---特征选择
当数据预处理完成后,我们需要选择有意义的特征输入机器学习的算法和模型进行训练。通常来说,从两个方面考虑来选择特征:特征是否发散:如果一个特征不发散,例如方差接近于0,也就是说样本在这个特征上基本上没有差异,这个特征对于样本的区分并没有什么用。 特征与目标的相关性:这点比较显见,与目标相关性高的特征,应当优选选择。除移除低方差法外,本文介绍的其他方法均从相关性考虑。根据特征选择的形式又可以将...转载 2018-11-07 15:56:03 · 391 阅读 · 0 评论