
machine learning
文章平均质量分 94
gzj_1101
一个喜欢新事物的码农
展开
-
机器学习笔记(五)之详解SVM支持向量机
上篇博客我们讲的是logistic分类器,一个基于概率的分类器,本篇的SVM(support vector machine)是一个基于间隔的二元分类器。支持向量机在机器学习中,支持向量机(英语:support vector machine,常简称为SVM,又名支持向量网络[1])是在分类与回归分析中分析数据的监督式学习模型与相关的学习算法。给定一组训练实例,每个训练实例被标记为属于两个原创 2017-10-10 21:47:52 · 1368 阅读 · 0 评论 -
隐马尔科夫模型一(概念理解)
前言由于前一段时间在看CTC论文,里面用到了HMM中的前向后向算法,推公式的时候·一脸懵逼,所以又来学习HMM的思想,所以写篇博客做个笔记。本部分博客分为两篇,第一篇主要介绍一些基本的概念和思想,第二篇介绍理论的推导。博客的内容主要是基于<<统计学习方法>>以及其他的一些博客模型概念隐马尔可夫模型:隐马尔科夫模型是关于时序的概念模型,描述了由一个隐藏的马尔科...原创 2018-04-16 00:07:10 · 9151 阅读 · 14 评论 -
EM算法(Expectation maximization algorithm)
极大似然估计极大似然估计定义求解过程EM算法EM算法和极大似然估计的区别鸡生蛋,蛋生鸡问题EM算法思想三硬币模型jensen不等式Q函数EM算法的推导K-means中EM思想参考资料纠结了好几天,总算搞清楚了EM算法的大概。因此写下这篇博客做个笔记,由于这方面懂得不是很多,可能存在理解错误的地方,欢迎大家指正,好了闲话不多说。极大似然估...原创 2018-04-13 10:25:23 · 5544 阅读 · 1 评论 -
隐马尔可夫模型二(公式推导)
概率问题直接计算法前向后向算法前向算法后向算法一些期望学习问题Baum-Welch算法Baum-Welch参数估计公式预测算法近似算法维比特算法参考文献前面一篇介绍了隐马尔科夫模型的基本的一些概念,篇主要介绍三个问题的具体解决方法。如果对于概念不太理解的可以参考前一篇博客HMM模型基本概念,本篇博客主要介绍对于三个问题的主要推倒,内...原创 2018-04-21 16:58:23 · 3775 阅读 · 5 评论 -
机器学习笔记(二)之决策树
机器学习之决策树基本概念决策树算法是机器学习中一个非常经典的算法,既能够解决分类问题,也能够解决回归问题。一般的,一颗决策树包含一个根节点、若干个内部结点和若干个叶子节点;叶子结点对应于决策结果,其他的结点则对应一个属性测试,每个结点包含的样本集合根据属性测试的结果被划分到子节点中。根节点包含样本全集,从根结点到每一个叶子节点表示的是一个判定结果。决策树学习的目的是为了产生一颗泛化能力强的得决策树原创 2017-09-14 17:11:40 · 721 阅读 · 0 评论 -
机器学习笔记(一)k近邻算法(k-Nearest Neighbor)
k近邻算法(kNN)是监督学习的一种。其原理非常简单:存在一个样本数据集,也称作训练样本集。样本集中的每个数据都存在标签,即知道数据与对应分类的关系。输入新的没有标签的数据,将新的数据的每个特征与样本中的数据特征进行对比,然后利用算法提取出样本集中特征最相似的数据(最邻近)分类标签。一般来说我们只选取样本集中前k个最相似的数据。k近邻算法一般流程:1.选择一种距离计算方式,通过数据所有的特原创 2017-09-01 19:31:08 · 844 阅读 · 0 评论 -
支持向量机之SMO算法
前面我们讲到SVM的基本理论,现在就涉及到SVM的实现,这里就不得不提到SMO算法SMO算法1996年,John Platt 发布了一个称为SMO的强大算法,用于训练SVM,SMO表示表示序列最小优化(Sequential Minimal Optimization)。Platt的SMO算法是将大优化问题分解成为许多个小优化问题来求解。这些小优化问题往往很容易求解,并且对他们进行顺序求解的结果与将他们原创 2017-10-16 19:24:32 · 841 阅读 · 0 评论 -
CART算法的原理以及实现
CART算法思想CART树的特点回归树的生成最小二乘法回归树生成算法分类树的生成基尼指数分类树生成算法剪枝处理CART分类回归树(classification and regression tree,CART)模型由Breiman等人在1984年提出,是应用广泛的决策树学习方法。CART同样由特征选择、树的生成以及剪枝组成,既可以用于分类也...原创 2017-10-26 16:16:31 · 33658 阅读 · 9 评论 -
集成学习的原理
当做重要决定的时候,大家可能都会考虑吸取多个专家而不是一个人的意见。机器学习在解决问题的时候又不是如此。这就是集成学习的思想。集成学习 集成学习(ensemble learning)通过构建并结合多个学习器来完成学习任务。通过将多个学习器进行结合,常可获得比单一学习器显著优越的泛化性能,颇有“三个臭皮匠顶个诸葛亮”的意味。集成学习于弱学习器(weaker learner)的效果更佳明显,因此集成学原创 2017-10-19 19:26:22 · 1208 阅读 · 0 评论 -
机器学习笔记(三)之朴素贝叶斯
朴素贝叶斯朴素贝叶斯算法仍然是流行的十大挖掘算法之一,该算法是有监督的学习算法,解决的是分类问题,如客户是否流失、是否值得投资、信用等级评定等多分类问题。该算法的优点在于简单易懂、学习效率高、在某些领域的分类问题中能够与决策树、神经网络相媲美。但由于该算法以自变量之间的独立(条件特征独立)性和连续变量的正态性假设为前提,就会导致算法精度在某种程度上受影响。接下来我们就详细介绍该算法的知识点及实际应用原创 2017-09-23 18:36:40 · 738 阅读 · 0 评论 -
机器学习笔记(四)之Logistic回归
回归的概念假设有一些数据点,我们利用一条直线对这些点进行拟合(该直线为最佳拟合直线),这个拟合过程称为回归。logistic回归思想根据根据现有数据集对分类边界线建立回归公式,以此进行分类。logisitc回归一般过程收集数据:采用任意方法收集数据准备数据:由于需要计算距离,所以要求数据类型是数值型。另外,结构化数据格式最佳分析数据:采用任意方法对数据进行分析训练算法:大部分时间用于训练,训原创 2017-10-08 19:15:37 · 1412 阅读 · 0 评论 -
无监督学习之K-means算法
前面讲到的都是监督学习的分类与回归,今天我们来看看无监督学习以及里面常见的聚类算法。无监督学习相对于监督学习,无监督学习的训练样本没有标签信息,无监督学习的目标是通过无标签训练样本的学习来揭示数据内在的性质以及规律,为进一步的数据分析提供基础。其中研究最多和最广泛的便是聚类任务。 聚类试图将数据集中的样本划分成不同的簇。将相似的对象归到同一个簇中,簇内对象越相似,聚类的效果越好。...原创 2017-10-31 10:35:24 · 810 阅读 · 0 评论 -
AdaBoost算法的原理与实现
前面讲到了增强学习的基本原理以及两种方法Boosting,现在就介绍我们的主角AdaBoost。集成学习的两个关注点在每一轮如何改变训练数据的权值或者概率分布如何将弱分类器组合成一个强分类器AdaBoost思想对于第一个问题:每一个训练样本都被赋予一个权重,表明它被某个分类器选入训练集的概率。然后提高被前一轮若分类器错误分类的样本的权值,降低那些被错误分类的样本的权值。这样一来没有被正确分类的原创 2017-10-22 18:49:35 · 718 阅读 · 0 评论 -
BP算法
神经元模型仿照生物的神经元模型,神经元接收到来自n个其他神经元的输入信号,这些输入信号带有犬只连接,神经元接收到的总输入值与神经元的阈值进行比较,然后通过激活函数产生神经元的输出。 如下图所示:输入为[x_1,x_2,x_3,…,x_n]输出为y=f(∑Ni=1wixi−θ)y=f(∑i=1Nwixi−θ)y=f(\sum_{i=1}^Nw_ix_i-\theta)其中典型...原创 2018-05-28 21:34:47 · 799 阅读 · 0 评论