
机器学习
XiaomengYe
脚踏实地,专注,升华
展开
-
基本采样原理知识点总结
PDF(Pobability Density Function):概率密度函数CDF(Cumulative distribution function): 累计概率函数对于一个概率分布的采样是我们研究统计相关知识的基本操作,下面我们就来介绍下不同的采样方法。标准采样在介绍基本采样之前,我们先推导一下随机变量函数的PDF。对于一个随机变量x,我们知道其概率密度函数是,那么随机变量...原创 2019-02-22 11:45:58 · 2240 阅读 · 0 评论 -
boosting算法原理以及GBDT与Xgboost的比较
在融合算法家族中,不同于bagging和Averaging算法主要降低子模型的方差,boosting算法主要用来降低偏差(保持方差不变)。GBDT和Xgboost算法是boosting算法中应用比较广泛的两种算法,我们下面就来介绍一下这两种算法。前向分步算法GBDT和Xgboost的基本模型都可以归类为前向分布算法,为了后续便于理解,我们首先来看下前向分布算法的机制。我们知道,融合模型...原创 2019-05-28 13:49:22 · 1471 阅读 · 0 评论 -
统计学习模型理论(一) 偏差(bias)和方差(variance)
我们利用机器学习模型对测试数据或生产数据做预测,误差(也就是泛化误差)是无法避免的,而偏差和方差就是分析误差的一种有效的工具,另外,理解它们对于模型调参也起着指导性的作用。在介绍机器学习模型的偏差和方差之前,我们首先要明确统计学上方差的意义。在统计学中,设有随机变量,方差定义为: ...原创 2019-05-06 18:24:00 · 4522 阅读 · 0 评论 -
决策树原理简介
基于决策树(DT)的算法如RF、GBDT在各种工业场景有着广泛的应用,了解决策树基础算法非常重要,下面我们就对于决策树算法做一下总结决策树分类器基本思想决策树是一种基于分治法的分类器。假设我们有若干个样本点,把它们放在一个节点内,按照最原始的方法对数据做分类,我们可以对节点内部的样本标签做统计,每一个新的样本都可以归为标签的众数(数量最多的标签);当然,这个方法太粗暴没有实用价值,那么我们...原创 2019-05-05 09:40:44 · 1882 阅读 · 0 评论 -
SVM知识点简介
support vectormachine(SVM)算法在金融等多个领域都有广泛的应用,下面我们就来介绍下SVM算法的基本知识点SVM算法思想回顾LR算法,分类器其实是一个概率模型,当h(x) > 0.5,我们说样本属于正类,反之则为负类。但是对于h(x)= 0.5,你可以很自信的说该样本属于哪个类别吗?所以,LR分类判别算法应该存在一个“置信度”的量,比如,如果(当然会小于1,...原创 2019-05-05 11:02:49 · 667 阅读 · 0 评论 -
MLE,MAP和贝叶斯推断
机器学习理论中有一些基本的模型是被反复使用的,了解这些模型对于学习不同的算法十分重要,下面我们对常见的三个模型MLE(最大似然估计),MAP(最大后验概率)和贝叶斯推断做简单的介绍。机器学习的基本问题假设我们数据集X,其中每单个数据 xi 都是 i.i.d(独立同分布)的: ...原创 2019-04-03 19:44:28 · 1376 阅读 · 0 评论 -
Logistic Regression(LR) 算法原理简介
作为机器学习算法中比较基础的LR算法,其在多个领域发挥着重要的作用,下面我们就来对其算法原理以及特点做一下总结。Logistic Regression 基本原理LR算法是典型的判别模型,即给定数据x,要求概率P(y|x)。假设我们有m个样本点集合,对应的标记为。1. LR的二分类算法我们假定给定数据x和模型参数,标记y服从伯努利分布,即。因为我们做的是二分类,所以这个假设是非常直...原创 2019-04-16 17:13:20 · 2929 阅读 · 0 评论 -
条件随机场(CRF)知识点总结
条件随机场(CRF)模型在给定一系列随机变量的条件下,另外一组随机变量的概率分布,其特点是假设输出随机变量构成马尔可夫随机场。1. 随机场提到随机场,就不得不提及随机过程,因为随机场是随机过程的推广。随机过程:如果对于某一个固定的,都是随机变量,那么我们称是一个随机过程。直觉上,我们可以把随机过程理解为一族随即变量。并将叫做随机过程在时刻的状态。随机场:随机场是随机过程在空间域上...原创 2019-03-19 00:33:58 · 1108 阅读 · 0 评论 -
生成模型与判别模型
我们知道机器学习中不同的模型大致可以分为两类--生成模型和判别模型,那么这两者分别怎么定义?区别在于哪里?应用场景又有什么不同?下面我们对以上做一下总结。生成模型简而言之,生成模型是这样的模型:给定标签限量 y,我们可以根据模型“生成”特征向量x。一般生成模型可以做如下处理:根据数据求得概率,根据贝叶斯定理,我们得到了用于判别的模型;当然,如果是为了分类而非得到,也并非一定要计算,直接...原创 2019-03-18 09:30:07 · 138 阅读 · 0 评论 -
马尔可夫链蒙特卡洛法(MCMC)知识点总结
MCMC方法最初来源于上世纪的物理学物理学研究,它解决了一类采样问题,且对于高维分布数据同样适用。在说明MCMC之前应该先了解一下蒙特卡洛求积分的方法,这点请参考文献[3]。马尔可夫链的极限概率对于马尔可夫转移矩阵 A, 我们知道它的每一行的和都为1,且元素的都在区间[0,1]之间。它有两个性质:1. A有特征值2. A的所有其它特征值的绝对值都小于1(证略)有了这两个性质...原创 2019-03-01 13:58:50 · 4351 阅读 · 0 评论 -
隐马尔科夫知识点(HMM)总结
对有监督机器学习算法熟悉的朋友知道,我们监督学习研究的对象往往满足独立同分布(i.i.d)条件,也即样本点与样本点之间 不存在依赖关系。但现实当中,独立同分布的假设往往不成立,比如说,英语句子当中的字符、股票交易各个时间点的状态等等。对于这一类数据,我们可以使用马尔可夫模型解决相关问题。当然,现阶段再各种应用上马尔可夫模型都有可以被RNN取代,但是仍然有其可以发挥作用的场景。下面我就对隐马尔可夫的...原创 2019-02-19 01:31:05 · 921 阅读 · 0 评论 -
EM算法原理总结
EM算法作为非监督学习的一种特有优化算法,可以解决最大似然问题当中隐变量不可观测而难以优化的问题。下面我们对EM算法做一下总结。1. 引子--高斯混合模型(GMM)假设我们有m个数据需要聚类(这些数据的类别未知)。我们尝试给数据建立概率模型, 数据服从联合概率分布:。这里服从多项式分布,而服从多元高斯分布。也即有和。我们假设数据可能有 k 个分类,如此,我们可以这样理解该模型...原创 2019-02-12 13:28:29 · 725 阅读 · 0 评论 -
Bagging(Bootstrap Aggregating)和averaging可行性分析
此处bagging具体过程不做详细介绍,我们只谈一下bagging为什么可以工作以及它的作用。Bagging为什么可以工作我们从回归问题的泛化误差的角度来分析(这里先不分偏差和方差)。设数据集L包含数据,其数据均采样与联合分布为P的随机变量。如此,我们的集成模型可以表示为: ...原创 2019-05-13 16:57:58 · 391 阅读 · 0 评论