
统计学习方法
文章平均质量分 63
好想发论文
这个作者很懒,什么都没留下…
展开
-
机器学习之生成模型和判别模型
机器学习之生成模型和判别模型1、生成模型和判别模型的定义对于输入数据集X,输出类别Y,生成模型和判别模型可以这样定义判别模型:由数据集直接学习决策函数y = f(x) 或者条件概率分布P(y|x) 作为预测的模型(决策函数事实上是可以用条件概率表示的,例如在逻辑回归中的决策函数和转换成条件概率),这样的模型称为判别模型。*基本思想就是在有限样本条件下建立判别函数,不考虑样本的产生模型,直接研究预测模型。*典型的判别模型包括K近邻,感知机,决策树,支持向量机等。生成模型:**由数据学习联合概率密度分布转载 2021-09-13 20:26:36 · 497 阅读 · 0 评论 -
统计学习方法-李航-条件随机场笔记
统计学习方法-李航-条件随机场CRF 条件随机场算法通常用于序列标注的任务,例如给定一个输入序列 X= (x1, x2, x3, …, xn),求输出的序列 Y =(y1, y2, y3, …, yn)。例如在中文分词中,X 即是输入的句子,Y 是句子中每一个单词对应的分词中的目标 (s, b,m, e)。因此 CRF 通常用于 NLP 的分词、词性标注、命名实体识别等任务。条件随机场(Conditional randomfield,CRF)是给定一组输入随机变量条件下另一组输出随机变量的条原创 2021-06-13 21:22:02 · 474 阅读 · 2 评论 -
统计学习方法-李行-第十章 隐马尔可夫模型
统计学习方法-李行-第十章 隐马尔可夫模型隐马尔可夫模型(hidden markov model,HMM)是可用于标注问题的统计学习模型,描述由隐藏的马尔可夫链随机生成观测序列的过程,属于生成模型。应用领域:语音识别、自然语言处理、生物信息、模式识别**经典例子:**掷骰子假设我手里有三个不同的骰子。第一个骰子是我们平常见的骰子(称这个骰子为D6),6个面,每个面(1,2,3,4,5,6)出现的概率是1/6。第二个骰子是个四面体(称这个骰子为D4),每个面(1,2,3,4)出现的概率是1/4。第三个原创 2021-06-07 22:57:29 · 177 阅读 · 0 评论 -
统计学习方法-李航-第九章EM算法及其推广
统计学习方法-李航-第九章EM算法及其推广EM算法(即期望极大算法)是一种迭代算法,用于含有隐变量的概率模型参数的极大似然估计,或极大后验概率估计。EM算法由两步组成:->E步,求期望(expectation)->M步,求极大值(maximization)极大似然估计:给定:模型(参数全部或者部分未知)和数据集(样本)估计:模型的未知参数总的来说:极大似然估计就是用来估计模型参数的统计学方法。在最大似然估计中,我们试图在给定模型的情况下,找到最佳参数,是的这组样本出现的可原创 2021-05-27 22:23:17 · 374 阅读 · 0 评论 -
统计学习方法-李航-第八章-提升方法
统计学习方法-李航-第八章-提升方法知乎有一个问题:有哪些简短、强大、另人印象深刻的算法?我想 AdaBoost应该占一席之地。它是如此的简短(十来行代码),高效,而且具有一些罕见的优点(大量训练不会导致过拟合),自诞生之初,关于它研究从未间断。AdaBoost是 Boosting 的代表算法。提升方法(Boosting)是集成学习(Ensemblelearning)的一个分支,另一主要分支是引导聚合(Bagging)。所谓集成学习,是将多个“弱学习器”(处理分类问题仅比随机猜测好一点)组合原创 2021-05-23 21:43:27 · 331 阅读 · 0 评论 -
统计学习方法-李航-第七章-支持向量机笔记
统计学习方法-李航-第七章-支持向量机笔记首先回顾一下感知机。感知机的模型是线性分类模型,将两种类别标记为正负1,将新的样本输入线性函数,再将线性函数代入符号函数就可以得到输出作为判定结果。这里最重要的还是线性函数的选取,线性函数在特征空间中可能就是一个超平面,只要这个超平面能将正负样本完全分隔开来就是符合要求的超平面,这也就是感知机的策略。具体到损失函数,选择的不是误分类点的个数,而是误分类点到超平面的总距离,这样才连续可求导,方便后续优化。感知机的算法是在策略的基础上选择的优化算法。从模原创 2021-05-18 21:32:30 · 349 阅读 · 0 评论 -
统计学习方法-李航-第二版-第6章 逻辑斯蒂回归与熵模型
第6章 逻辑斯蒂回归与熵模型LR(logistic regression, 逻辑斯蒂回归)是统计学习中的经典分类方法。最大熵是概率模型学习的一个准则,将其推广到分类问题得到最大熵模型。LR与最大熵模型都属于对数线性模型。1.逻辑斯蒂分布2.二项逻辑回归模型二项逻辑斯蒂回归模型是一种分类模型,由条件概率分布P(Y|X)表示,形式为参数化逻辑斯蒂分布。一个事件的几率(odds)是指该事件发生的概率与该事件不发生的概率的比值。如果时间发生的概率是p,那么该事件的几率是p/(1-0),该事件的对原创 2021-05-13 21:30:36 · 242 阅读 · 0 评论 -
统计学习方法-李航-第五章-决策树
第五章 决策树决策树是一种基本的分类与回归方法。决策树模型呈树形结构,在分类问题中,表示基于特征对实例进行分类的过程。预测时,对新的数据,利用决策树模型进行分类。三个步骤:特征选择、决策树生成和决策树修剪。1.决策树模型2.决策树与if-then规则3.决策树与条件概率分布4.决策树学习5.特征选择问题有用特征 无用特征 冗余特征特征选择在于选取对训练数据具有分类能力的特征。6.信息增益6. ID3算法ID3算法的核心是在决策树各个结点上应用信息增益准则选择特征,递原创 2021-05-12 22:32:12 · 216 阅读 · 0 评论 -
统计学习方法-李航-第四章-朴素贝叶斯
**统计学习方法-李航-第四章-朴素贝叶斯**朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入、输出的联合概率分布;然后基于此模型,对于给定的输入x,利用贝叶斯定理求出后验概率最大的输出y.1 基本方法朴素贝叶斯法实际上学习到生成数据的机制,所以属于生成模型。(条件独立假设等于是说用于分类的特征再类确定的条件下都是条件独立的。这一假设使朴素贝叶斯变得简单,但有时会牺牲一定的分类准确率)2 后验概率最大化的含义朴素贝叶斯法将原创 2021-05-10 21:51:00 · 199 阅读 · 0 评论 -
统计学习方法-李航-第二版-第三章 K近邻算法
第三章 K近邻算法k近邻算法(KNN)是一种基本分类与回归方法。k近邻算法k近邻算法简单、直观:给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的k个实例,这k个实例的多数属于某个类,九八该输入实例分为这个类。k近邻模型模型三个基本要素:距离度量、k值的选择和分类决策规则模型:当训练集、距离度量、K值及分类决策规则确定后,对于任何一个新的输入实例,它所属的类唯一地确定。距离度量:特征空间中两个实例点的距离是两个实例点相似程度的反映。由不同的距离度量所确定的最近邻点是不原创 2021-04-27 22:02:06 · 193 阅读 · 0 评论 -
统计学习方法-李航-第二版-第二章-感知机
第二章 感知机感知器(英语:Perceptron)是Frank Rosenblatt在1957年就职于康奈尔航空实验室(Cornell Aeronautical Laboratory)时所发明的一种人工神经网络。它可以被视为一种最简单形式的前馈神经网络,是一种二元线性分类器。感知机是二类分类的线性分类模型,其输入为实例的特征向量,输出为实例的类别,取+1和-1二值。感知机对应于输入控件中将实例划分为正负两类的分离超平面,线性分类模型,属于判别模型。感知机学习旨在求出将训练数据进行先行划分的分离超平面原创 2021-04-27 20:38:43 · 295 阅读 · 0 评论 -
统计学习方法-李航-第一章学习笔记
**第1章 统计学习方法概论**统计学习的对象是数据,关于数据的基本假设是同类数据具有一定的统计规律性。特点:(1)数据独立同分布;(2)模型属于某个假设空间(学习范围);(3)给定评价准则下最优预测;(4)最优模型的选择由算法实现统计学习分类统计学习:监督学习 非监督学习 强化学习 (半监督学习 主动学习)监督学习:X_train X_test Y_train T_test监督学习->分类 标注 回归(预测)无监督学习:指从无标注数据中学习预测模型的机器模型(旨在从假设空间原创 2021-04-27 18:32:36 · 190 阅读 · 0 评论