
机器学习
mingWar
这个作者很懒,什么都没留下…
展开
-
机器学习中的相似性度量
来自琥珀春秋博客的一篇,与自己最近计算的音乐相似性工作有所增益,记录之。在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。本文的目的就是对常用的相似性度量作一个总结。本文目录:1. 欧氏距离2.转载 2017-02-07 14:05:27 · 518 阅读 · 0 评论 -
分级聚类算法(集体智慧编程)
分级聚类是通过连续不断地将最为相似的群组两两合并,来构造出一个群组的层级结构。其中的每个群组都是从单一元素开始的。如图所示:元素的相似程序是通过它们的相对位置来体现的,距离越近越相似。两两合并,直到合并最后两个群组。 聚类是无监督学习的一个例子。与神经网络或决策树不同,无监督学习算法不是利用带有正确答案的样本数据进行“训练”。它们的目的是要在一组数据中找寻某种结构,而这转载 2017-02-07 11:55:41 · 1240 阅读 · 0 评论 -
机器学习——K-近邻(KNN)算法
一 . K-近邻算法(KNN)概述 最简单最初级的分类器是将全部的训练数据所对应的类别都记录下来,当测试对象的属性和某个训练对象的属性完全匹配时,便可以对其进行分类。但是怎么可能所有测试对象都会找到与之完全匹配的训练对象呢,其次就是存在一个测试对象同时与多个训练对象匹配,导致一个训练对象被分到了多个类的问题,基于这些问题呢,就产生了KNN。 KNN是通过测量不同特征转载 2017-02-17 17:35:42 · 778 阅读 · 0 评论 -
机器学习——决策树算法原理及案例
机器学习在各个领域都有广泛的应用,特别在数据分析领域有着深远的影响。决策树是机器学习中最基础且应用最广泛的算法模型。本文介绍了机器学习的相关概念、常见的算法分类和决策树模型及应用。通过一个决策树案例,着重从特征选择、剪枝等方面描述决策树的构建,讨论并研究决策树模型评估准则。最后基于 R 语言和 SPSS Modeler这两个工具,分别设计与实现了决策树模型的应用实例。1.机器学习概念转载 2017-02-28 15:18:19 · 1955 阅读 · 0 评论 -
朴素贝叶斯算法
一、朴素贝叶斯分类的基本原理给定的待分类项的特征属性,计算该项在各个类别出现的概率,取最大的概率类别作为预测项。二、贝叶斯定理根据条件概率的定义。在事件B发生的条件下事件A发生的概率是:同样地,在事件A发生的条件下事件B发生的概率:整理与合并这两个方程式,我们可以得到:这个引理有时称作概率乘法规则。上式两边转载 2017-02-28 15:30:57 · 616 阅读 · 0 评论 -
深入理解拉格朗日乘子法(Lagrange Multiplier) 和KKT条件
在求解最优化问题中,拉格朗日乘子法(Lagrange Multiplier)和KKT(Karush Kuhn Tucker)条件是两种最常用的方法。在有等式约束时使用拉格朗日乘子法,在有不等约束时使用KKT条件。 我们这里提到的最优化问题通常是指对于给定的某一函数,求其在指定作用域上的全局最小值(因为最小值与最大值可以很容易转化,即最大值问题可以转化成最小值问题)。提到KKT条件一般会附转载 2017-03-17 15:59:14 · 3787 阅读 · 0 评论 -
支持向量机(五)SMO算法
11 SMO优化算法(Sequential minimal optimization)SMO算法由Microsoft Research的John C. Platt在1998年提出,并成为最快的二次规划优化算法,特别针对线性SVM和数据稀疏时性能更优。关于SMO最好的资料就是他本人写的《Sequential Minimal Optimization A Fast Algorithm for转载 2017-03-27 17:18:55 · 415 阅读 · 0 评论 -
《机器学习实战》笔记之五——Logistic回归
第五章 Logistic回归回归:对一些数据点,算法训练出直线参数,得到最佳拟合直线,能够对这些点很好的拟合。训练分类器主要是寻找最佳拟合参数,故为最优化算法。5.1 基于Logistic回归和sigmoid函数的分类实现Logistic回归分类器:在每个特征上都乘以一个回归系数,然后把所有的结果值相加,总和带入sigmoid函数,其结果大于0.5分转载 2017-03-13 19:28:41 · 625 阅读 · 0 评论