传统机器学习
fkyyly
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
朴素贝叶斯
1.1、摘要 贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。本文作为分类算法的第一篇,将首先介绍分类问题,对分类问题进行一个正式的定义。然后,介绍贝叶斯分类算法的基础——贝叶斯定理。最后,通过实例讨论贝叶斯分类中最简单的一种:朴素贝叶斯分类。1.2、分类问题综述 对于分类问题,其实谁都不会陌生,说我们每个人每天都在执行转载 2014-01-13 17:00:48 · 879 阅读 · 0 评论 -
决策树,Adaboost,GBDT,Xgboost,LightGBM等
Bagging方法有放回地采样同数量样本训练每个学习器, 然后再一起集成(简单投票); Boosting方法使用全部样本(可调权重)依次训练每个学习器, 迭代集成(平滑加权)1 决策树ID3,C4.5 CART 特征选择,决策树构建,剪枝2 Adaboost大多数提升方法都是改变训练数据的概率(权值)分布,针对不同的训练数据分布调用弱学习算法的一系列弱分类器从而,两个问...原创 2018-09-15 17:16:37 · 353 阅读 · 0 评论 -
GBDT迭代的决策树算法
1.简介 gbdt全称梯度下降树,在传统机器学习算法里面是对真实分布拟合的最好的几种算法之一,在前几年深度学习还没有大行其道之前,gbdt在各种竞赛是大放异彩。原因大概有几个,一是效果确实挺不错。二是即可以用于分类也可以用于回归。三是可以筛选特征。这三点实在是太吸引人了,导致在面试的时候大家也非常喜欢问这个算法。 gbdt的面试考核点,大致有下面几个:gbdt 的算法的流程? gb...原创 2018-10-15 17:42:11 · 836 阅读 · 0 评论 -
CRF
1 基本知识点(1)什么是马尔科夫随机过程和马尔科夫链马尔科夫过程,是指下一个时间点的值只与当前值有关系,与以前没有关系,即未来决定于现在而不是过去。这种在已知 “现在”的条件下,“未来”与“过去”彼此独立的特性就被称为马尔科夫性,具有这种性质的随机过程就叫做马尔科夫过程,其最原始的模型就是马尔科夫链。(2)什么是马尔科夫随机场马尔可夫随机场(Markov Random Field...原创 2018-10-18 21:49:17 · 1192 阅读 · 0 评论 -
HMM,MEMM,CRF总结和比较
HMM(隐马尔科夫)1 HMM是产生式模型HMM是一种产生式模型,定义了联合概率分布p(x,y) ,其中x和y分别表示观察序列和相对应的标注序列的随机变量。为了能够定义这种联合概率分布,产生式模型需要枚举出所有可能的观察序列,这在实际运算过程中很困难,所以我们可以将观察序列的元素看做是彼此孤立的个体, 即假设每个元素彼此独立(和naive bayes类似),任何时刻的观察结果只依赖于该...原创 2018-10-09 14:05:58 · 1912 阅读 · 0 评论 -
逻辑斯蒂回归
原创 2018-11-11 00:10:09 · 161 阅读 · 0 评论 -
集成学习:Bagging和Boosting比较
随机森林(random forest)和GBDT都是属于集成学习(ensemble learning)的范畴。集成学习下有两个重要的策略Bagging和Boosting。1 Bagging和Boosting含义Bagging算法是这样做的:每个分类器都随机从原样本中做有放回的采样,然后分别在这些采样后的样本上训练分类器,然后再把这些分类器组合起来。简单的多数投票一般就可以。其代表算法是随机...原创 2018-11-29 15:10:16 · 1220 阅读 · 0 评论 -
xgboost
1 由gbdt到xgboost经过前面的学习,我们已经知道,GBDT是一种基于集成思想下的Boosting学习器,并采用梯度提升的方法进行每一轮的迭代最终组建出强学习器,这样的话算法的运行往往要生成一定数量的树才能达到令我们满意的准确率。当数据集大且较为复杂时,运行一次极有可能需要几千次的迭代运算,这将对我们使用算法造成巨大的计算瓶颈。针对这一问题,华盛顿大学的陈天奇博士开发出了XGBoo...原创 2018-11-30 09:20:43 · 835 阅读 · 0 评论 -
adaboost
AdaBoost:提高那些被前一轮弱分类器错误分类样本的权值,而降低那些被正确分类样本的权值。这样一来,那些没有得到正确分类的数据,由于其权值的加大而受到后一轮的弱分类器的更大关注,于是,分类问题就被一系列的弱分类器“分而治之”。至于第二个问题,即弱分类器的组合,AdaBoost采取加权多数表决的方法。具体地,加大分类误差率小的弱分类器的权值,使其在表决中起较大的作用,减小分类误差率较大的弱分类器...转载 2018-11-30 15:28:55 · 278 阅读 · 0 评论 -
LSA(Latent semantic analysis)
LSA最初是用在语义检索上,为了解决一词多义和一义多词的问题:1.一词多义: 美女和PPMM表示相同的含义,但是单纯依靠检索词“美女”来检索文档,很可能丧失掉那些包含“PPMM”的文档。2.一义多词:如果输入检索词是多个检索词组成的一个小document,例如“清澈 孩子”,那我们就知道这段文字主要想表达concept是和道德相关的,不应该将“春天到了,小河多么的清澈”这样的文本包含在内。为...转载 2018-11-30 21:49:38 · 23877 阅读 · 2 评论 -
特征分解和SVD奇异值分解
奇异值分解(Singular Value Decomposition,以下简称SVD)是在机器学习领域广泛应用的算法,它不光可以用于降维算法中的特征分解,还可以用于推荐系统,以及自然语言处理等领域。是很多机器学习算法的基石。本文就对SVD的原理做一个总结,并讨论在在PCA降维算法中是如何运用运用SVD的。https://www.cnblogs.com/pinard/p/6251584.ht...转载 2018-12-03 13:46:59 · 602 阅读 · 0 评论 -
PCA
主成分分析(Principal components analysis,以下简称PCA)是最重要的降维方法之一。在数据压缩消除冗余和数据噪音消除等领域都有广泛的应用。一般我们提到降维最容易想到的算法就是PCA,下面我们就对PCA的原理做一个总结。当我们将数据集从n维降到n'维时,需要找到最大的n'个特征值对应的特征向量。这n'个特征向量组成的矩阵W即为我们需要的矩阵。对于原始数据集,我们只...转载 2018-12-03 15:36:43 · 377 阅读 · 0 评论 -
Kmeans
kmeans的过程大家应该很清楚了,就不详细介绍了。其是通过引入隐变量,使用EM算法求解。1 Kmeans的收敛性:Kmeans是收敛的,但是不一定是极大值。2 因为Kmeans是通过EM算法,迭代的方式求解的,所以每次迭代的结果可以看成是数列中一个元素,这样就可以看成是求数列的收敛性。注意区分像逻辑斯蒂回归这样的算法,其是通过拉格朗日的方法求极值,不是迭代的方法。数列收敛:单调递...原创 2019-01-09 11:40:09 · 300 阅读 · 1 评论 -
SVM相关知识点
SVM目录索引线性可分 SVM:硬间隔最大化https://blog.youkuaiyun.com/weixin_37352167/article/details/85541583#_73线性 SVM:软间隔最大化https://blog.youkuaiyun.com/weixin_37352167/article/details/85563158非线性 SVM:核技巧 Φ(x)⋅Φ(z)=K(x,...转载 2019-01-15 10:28:33 · 311 阅读 · 0 评论 -
对偶问题
1.原始问题假设是定义在上的连续可微函数(为什么要求连续可微呢,后面再说,这里不用多想),考虑约束最优化问题:称为约束最优化问题的原始问题。现在如果不考虑约束条件,原始问题就是:因为假设其连续可微,利用高中的知识,对求导数,然后令导数为0,就可解出最优解,很easy. 那么,问题来了(呵呵。。。),偏偏有约束条件,好烦啊,要是能想办法把约束条件去掉就好了,bingo! ...转载 2019-01-15 10:37:07 · 23546 阅读 · 7 评论 -
词性标注词性编码表
《PFR人民日报标注语料库》词性编码表PFR语料库是对人民日报1998年上半年的纯文本语料进行了词语切分和词性标注制作而成的,严格按照人民日报的日期、版序、文章顺序编排的。文章中的每个词语都带有词性标记。目前的标记集里有26个基本词类标记(名词n、时间词t、处所词s、方位词f、数词m、量词q、区别词b、代词r、动词v、形容词a、状态词z、副词d、介词p、连词c、助词u、语气词y、叹词e、拟声词o、...原创 2018-04-02 16:16:36 · 6069 阅读 · 0 评论 -
无监督模型整体流程
1 典型模型kmeansLDALSAHMM(无状态序列数据)2 参数优化EMEM算法即“期望极大算法”。学过机器学习的朋友都知道EM算法分两步:E步求期望,M步求极大。但是期望是求谁的期望,极大是求谁的极大呢?这里面其实有两种解读角度。“通俗”角度通俗角度的话,求极大肯定是求似然函数的极大了,而且一般都是对数似然。我们一般解决模型参数求解问题,都是在给定数据的情...原创 2018-03-06 13:51:43 · 1601 阅读 · 4 评论 -
文本挖掘的体会
文本挖掘的体会 文本挖掘作为数据挖掘的一个新主题,引起了人们极大兴趣。文本挖掘是在数据库知识发现基础上发展起来的。文本挖掘,又称为文本知识发现(Knowledge discovery from text)是由 usamaM.Feldman在1995年首次提出,是指从非结构化的文本文档中抽取用户感兴趣的、重要的模式或知识的过程,它可以看作是数据挖掘或数据转载 2014-01-14 14:37:51 · 3299 阅读 · 0 评论 -
文本挖掘的具体流程
下面是我自己体会的具体的流程,如有不正确请大家留言指正,谢谢原创 2014-01-14 15:04:56 · 1637 阅读 · 0 评论 -
神经网络概述
本文主要内容包括: (1) 介绍神经网络基本原理,(2) AForge.NET实现前向神经网络的方法,(3) Matlab实现前向神经网络的方法 。第0节、引例 本文以Fisher的Iris数据集作为神经网络程序的测试数据集。Iris数据集可以在http://en.wikipedia.org/wiki/Iris_flower_data_set 找到。这里转载 2014-01-15 13:09:09 · 2208 阅读 · 0 评论 -
决策树
3.1、摘要决策树相比贝叶斯算法,决策树的优势在于构造过程不需要任何领域知识或参数设置,因此在实际应用中,对于探测式的知识发现,决策树更加适用。3.2、决策树引导 通俗来说,决策树分类的思想类似于找对象。现想象一个女孩的母亲要给这个女孩介绍男朋友,于是有了下面的对话: 女儿:多大年纪了? 母亲:26。 女儿:长转载 2014-01-13 20:49:41 · 947 阅读 · 0 评论 -
Stanford的机器学习
直接引自http://blog.youkuaiyun.com/abcjennifer/article/details/7691571,方便大家和自己学习,不是为抄袭。转载 2014-02-19 20:33:30 · 650 阅读 · 0 评论 -
反向传播BP模型(属于神经网络)
反向传播BP模型学习是神经网络一种最重要也最令人注目的特点。在神经网络的发展进程中,学习算法的研究有着十分重要的地位。目前,人们所提出的神经网络模型都是和学习算 法相应的。所以,有时人们并不去祈求对模型和算法进行严格的定义或区分。有的模型可以有多种算法.而有的算法可能可用于多种模型。不过,有时人们也称算法 为模型。自从40年代Hebb提出的学习规则以来,人们相继提出了各种各转载 2014-01-15 13:53:43 · 2563 阅读 · 0 评论 -
计算机视觉、机器学习相关领域论文和源码集合
计算机视觉、机器学习相关领域论文和源代码大集合--持续更新……注:下面有project网站的大部分都有paper和相应的code。Code一般是C/C++或者Matlab代码。最近一次更新:2013-3-17一、特征提取Feature Extraction:· SIFT [1] [Demo program][SIFT Library] [VLFe转载 2014-04-12 22:35:06 · 839 阅读 · 0 评论 -
hmm
1 特点(两个基本假设):(1)后一个隐藏状态只依赖于前一个隐藏状态。或者可以称为马尔科夫假设(Markov Assumption)或者一阶马尔科夫链:下一个词的出现仅依赖于它前面的一个或几个词。(2)观测值之间相互独立,观测值只依赖于该时刻的马尔科夫链的隐状态。2 两个状态集合(1)隐藏状态集合(假如是N*1维),例如是分词任务的词性(2)观测状态集合(假如是M*1维...转载 2014-07-29 16:37:36 · 1175 阅读 · 0 评论 -
感知器学习算法----神经网络
转自http://blog.youkuaiyun.com/stan1989/article/details/8565499转载 2014-10-27 14:52:11 · 5109 阅读 · 0 评论 -
Adaboost
《机器学习实战》7:Adaboosthttp://blog.youkuaiyun.com/zoufangyingzi/article/details/42077745?ref=myread原创 2014-12-24 11:43:12 · 468 阅读 · 0 评论 -
奇异值分解
强大的矩阵奇异值分解(SVD)及其应用版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系wheeleast@gmail.com前言: 上一次写了关于PCA与LDA的文章,PCA的实现一般有两种,一种是用特征值分解去实现的,一种是用奇异值分转载 2015-03-14 22:08:09 · 660 阅读 · 0 评论 -
最大似然估计(MLE)、最大后验概率估计(MAP),以及贝叶斯公式的理解
最大似然估计(Maximum likelihood estimation, 简称MLE)和最大后验概率估计(Maximum a posteriori estimation, 简称MAP)是很常用的两种参数估计方法,如果不理解这两种方法的思路,很容易弄混它们。下文将详细说明MLE和MAP的思路与区别。但别急,我们先从概率和统计的区别讲起。概率和统计是一个东西吗?概率(probabilty)和统计(s...转载 2018-03-06 21:30:03 · 680 阅读 · 0 评论 -
有监督机器学习算法整体流程概括
数据:(Xi,yi)其中Xi是向量,y是对应的标注结果直接学习条件概率分布P(Y|X)或决策函数Y=f(x)的方法为判别方法,对应的模型是判别模型。感知机、k临近法、决策树、逻辑斯帝回归与最大熵模型、支持向量机、提升方法、条件随机场是判别方法。首先学习联合概率分布P(X,Y),从而求得条件概率分布P(Y|X)的方法是生成方法,对应的模型是生成模型。朴素贝叶斯法、隐马尔可夫模型是生成方法。...原创 2018-02-27 21:18:27 · 1091 阅读 · 0 评论 -
机器学习入门
http://blog.youkuaiyun.com/han_xiaoyang/article/details/50469334关闭1.引言提起笔来写这篇博客,突然有点愧疚和尴尬。愧疚的是,工作杂事多,加之懒癌严重,导致这个系列一直没有更新,向关注该系列的同学们道个歉。尴尬的是,按理说,机器学习介绍与算法一览应该放在最前面写,详细的应用建议应该在讲完机器学习常用算法之后写,突然莫名奇妙在中间插播这么一篇,好像...转载 2016-07-22 20:11:51 · 1608 阅读 · 0 评论 -
熵、联合熵、条件熵、交叉熵与相对熵意义
条件熵:在随机变量X发生的前提下,随机变量Y发生所新带来的熵定义为Y的条件熵,用H(Y|X)表示,用来衡量在已知随机变量X的条件下随机变量Y的不确定性。 且有此式子成立:H(Y|X) = H(X,Y) – H(X),整个式子表示(X,Y)发生所包含的熵减去X单独发生包含的熵。至于怎么得来的请看推导:-------------------------------------...转载 2018-03-09 20:07:20 · 3119 阅读 · 0 评论 -
learning to rank pairwise_LambdaRank
目前常用的还是pairwise方法,其中主流的算法:GBRank、LambdaRank,其中LambdaRank增加了Listwise的指标。判断搜索结果好坏,通常是把搜索结果按效果分为几类,如可以分为5类:bad差、fair一般、good好、excellent非常好、perfect完美,然后通过计算DCG、NDCG指标来评估。Pairwise方法中的LambdaRank方法就是直接计算梯度来优化...转载 2019-02-01 16:05:42 · 955 阅读 · 0 评论
分享