
机器学习
林ch
这个作者很懒,什么都没留下…
展开
-
xgboost原理介绍与代码实现
1.引言2. xgboost原理2.1 正则化目标函数给定一个数据集,假设样本量为nnn,特征数为mmm,D={(xi,yi)}(∣D∣=n,xi∈Rm,yi∈R)\mathcal{D}=\left\{\left(\mathbf{x}_{i}, y_{i}\right)\right\}\left(|\mathcal{D}|=n, \mathbf{x}_{i} \in \mathbb{R}^{...原创 2019-12-23 00:01:19 · 932 阅读 · 0 评论 -
EM算法原理介绍
1. 引言 EM算法是Dempster等人在1977年提出来的一种迭代算法,用于含有隐变量的概率模型参数的极大似然估计或极大后验概率估计。EM算法的每次迭代由两步组成:E步,求期望;M步,求极大,因此,该算法也被称为期望极大算法,简称EM算法。2. EM算法原理介绍2.1 EM算法的原理 一般地,用YYY表示观测随机变量的数据,ZZZ表示隐随机变量的数据,YYY和ZZZ连在一起...原创 2019-06-11 15:31:53 · 2515 阅读 · 0 评论 -
条件随机场原理介绍
1. 引言 条件随机场(Conditional random field,CRF)是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型,其特点是假设输出随机变量构成马尔可夫随机场。条件随机场常用于序列标注问题,比如命名实体识别等。本文主要介绍线性链条件随机场。2. 条件随机场原理介绍2.1 概率无向图模型 由于CRF要求输出随机变量构成马尔可夫随机场,因此,这一节先...原创 2019-06-14 11:07:02 · 16474 阅读 · 3 评论 -
隐马尔可夫模型原理介绍
1. 引言 隐马尔可夫模型(Hidden Markov Model,HMM)是可用于标注问题的统计学习模型,描述由隐藏的马尔可夫链随机生成观测序列的过程,属于生成模型,以下统一用简称HMM表示。HMM在语音识别、自然语言处理等都有着广泛的应用。2. HMM原理介绍2.1 HMM模型的定义 HMM模型是关于时序的概率模型,描述由一个隐藏的马尔可夫链随机生成不可观测的状态随机序列,...原创 2019-06-12 15:43:27 · 2152 阅读 · 0 评论 -
最大熵模型原理介绍与python实现
1. 引言 最大熵原理认为,学习概率模型时,在满足约束条件的模型集合中,熵最大的模型是最好的模型,因为在没有更多信息的情况下,我们一般会认为不确定的部分都是等可能的,而在前面决策树的介绍时我们知道,熵最大时刚好是要求概率的分布满足均匀分布,即等可能分布,因此,可以通过熵的最大化来表示等可能分布。2. 最大熵模型原理介绍2.1 最大熵模型的定义 对于分类模型,假设我们要学习的模型...原创 2019-05-04 14:22:30 · 2952 阅读 · 0 评论 -
常用决策树模型介绍与python实现
1. 引言 决策树(decision tree)是一种基本的分类和回归方法,由于其采用的是一种树形的结构,因此,具有很强的解释性和计算速度,也正是因为这些特点,使得决策树在很多行业都得到了应用,比如风控行业等。决策树的建模过程一般分为三个步骤:特征选择、决策树的生成和决策树的剪枝,根据这三个步骤所采用的规则,衍生出了很多不同的模型,比较经典的有Quinlan在1986年提出的ID3算法和1...原创 2019-04-14 22:01:26 · 5895 阅读 · 2 评论 -
Logistic回归模型介绍与python实现
1. 引言 对于回归问题,我们知道可以通过回归模型进行拟合,并挖掘各个特征变量对模板变量的影响机制,但是,对于分类问题,由于目标变量是离散型变量,因此,不能直接应用回归模型进行解决,这时,可以使用Logistic回归模型进行解决。2. Logistic回归模型介绍2.1 Logistic回归模型的介绍 首先介绍Logistic分布,假设XXX是连续随机变量,XXX服从Logis...原创 2019-04-21 15:52:51 · 3561 阅读 · 0 评论 -
朴素贝叶斯模型介绍与python实现
1. 引言 朴素贝叶斯模型是j基于贝叶斯定理与特征条件独立假设的分类方法,它基于特征条件独立假设学习输入和输出的联合概率分布,然后采用贝叶斯定理求出后验概率最大的类别作为预测实例的类别,是生成模型中的一种。2. 朴素贝叶斯模型介绍2.1 朴素贝叶斯模型介绍 对于输入空间X⊆Rn\mathcal{X} \subseteq \mathbf{R}^{n}X⊆Rn为nnn维向量空间,输...原创 2019-04-06 16:49:39 · 1670 阅读 · 0 评论 -
KNN原理介绍与python实现
1. 引言 K近邻法(K-Nearest Neighbor,以下简称KNN)是由Cover和Hart于1968年提出来的基本分类和回归方法,KNN的基本思想是对于每一个样本,计算与其最邻近的K个样本点,然后基于某种分类规则的的方式将这K个邻近点的类别作为该样本的预测类别,因此,KNN并不具有显式的学习过程。2. KNN原理介绍2.1 KNN算法原理介绍 对于一个给定的训练数据集...原创 2019-04-05 19:26:08 · 631 阅读 · 0 评论 -
感知机原理介绍与python实现
1. 引言 感知机是1957年由Rosenblatt提出的一个线性分类模型,对应与输入空间(特征空间)中将实例分为正负两类的分离超平面,属于判别模型中的一种,也是神经网络和支持向量机的基础。原始论文的地址如下:论文地址:《THE PERCEPTRON: A PROBABILISTIC MODEL FOR INFORMATION STORAGE AND ORGANIZATION IN ...原创 2019-01-27 22:03:23 · 771 阅读 · 0 评论 -
机器学习常见模型评估指标
1.单值评估指标 在机器学习或深度学习中,为了评估最终模型的好坏,我们经常会引入各种评估指标,为了便于指标的说明,我们这里具一个例子作为说明。假设我们想要建立一个垃圾邮件的分类模型,此时,模型预测结果的混淆矩阵如下表所示:此时,我们常用的评估指标就有如下:准确率:即预测样本中,类别预测正确的比率,其计算公式为:; 精确率(查准率):即预测为正例的样本中,真正属于正例的样本比...原创 2018-10-28 15:11:21 · 1129 阅读 · 0 评论