
NLP
文章平均质量分 74
xiaokang06
这个作者很懒,什么都没留下…
展开
-
机器不学习:word2vec是如何得到词向量的?
转自:http://baijiahao.baidu.com/s?id=1591743538838829040&wfr=spider&for=pc机器不学习 jqbxx.com -机器学习、深度学习好网站word2vec是如何得到词向量的?这个问题比较大。从头开始讲的话,首先有了文本语料库,你需要对语料库进行预处理,这个处理流程与你的语料库种类以及个人目的有关,比如,如果是英文语料库...转载 2018-04-28 16:41:45 · 218 阅读 · 0 评论 -
GBDT理解二三事
转自:http://blog.youkuaiyun.com/w28971023/article/details/43704775一、要理解GBDT当然要从GB(Gradient Boosting)和DT(Decision Tree)两个角度来理解了;二、GB其实是一种理念,他并不是这一个具体的算法,意思是说沿着梯度方向,构造一系列的弱分类器函数,并以一定权重组合起来,形成最终决策的强分类器;注意,转载 2017-08-04 16:25:48 · 479 阅读 · 0 评论 -
理解GBDT算法(三)——基于梯度的版本
转自:http://blog.youkuaiyun.com/puqutogether/article/details/44781035上一篇中我们讲到了GBDT算法的第一个版本,是基于残差的学习思路。今天来说第二个版本,可以说这个版本的比较复杂,涉及到一些推导和矩阵论知识。但是,我们今天可以看到,两个版本之间的联系,这个是学习算法的一个重要步骤。这篇博文主要从下面这几个方面来说基于梯度的GBDT算转载 2017-08-04 16:22:56 · 593 阅读 · 0 评论 -
GBDT(MART) 迭代决策树入门教程 | 简介
转自:http://blog.youkuaiyun.com/w28971023/article/details/8240756在网上看到一篇对从代码层面理解gbdt比较好的文章,转载记录一下: GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree)转载 2017-08-04 15:44:38 · 280 阅读 · 0 评论 -
CART之回归树构建
转自:https://cethik.vip/2016/09/21/machineCAST/问题提出在看李航的《统计学习方法》的决策树那一章节,提到了CART算法,讲解了如何分别构建分类树和回归树,文章的侧重点好像在分类树上,对回归树只是提了一下,让我很是不解,于是google了下,大家基本上都在讲怎么构建CART分类树,好像回归树不存在似得,所以根据我手头现有的资料和查找到的文转载 2017-08-04 15:20:27 · 6917 阅读 · 2 评论 -
CART之回归树构建
转自:https://cethik.vip/2016/09/21/machineCAST/转载 2017-08-18 18:28:18 · 426 阅读 · 0 评论 -
GBDT算法步骤
说明:本篇文章是参看文章结尾自己写的读书笔记。GBDT算法步骤: k:表示待分类的类别,一共有K个类别。m:表示迭代次数,一共迭代M次。i:表示样本编号,一共有N个样本。Fk0(x):表示样本x在第k个分类下的估值,是一个k维的向量。下表0表示第0次迭代。例如:假设输入数据x可能属于5个分类(分别为1,2,3,4,5),训练数据中,x属于类别3,则y = (0,原创 2017-08-06 17:47:34 · 4829 阅读 · 0 评论 -
LDA 与 PLSA对比
转自:https://www.zhihu.com/question/23642556/answer/38969800一.主题模型的引入主题模型是一个统计模型,用来抽离出一批文档中的“主题”。直觉上,已知一篇文档的一个特定主题,则我们有理由相信一些词会更可能出现在这篇文档,“狗”和“骨头”更有可能出现在一篇有关于狗的文档中,“猫”和“喵”更有可能出现在有关于猫的文档中,而英语当中的“转载 2017-08-01 17:12:25 · 3105 阅读 · 0 评论 -
从重采样到数据合成:如何处理机器学习中的不平衡分类问题?
转自:http://www.sohu.com/a/129333346_465975选自Analytics Vidhya作者:Upasana Mukherjee机器之心编译参与:马亚雄、微胖、黄小天、吴攀如果你研究过一点机器学习和数据科学,你肯定遇到过不平衡的类分布(imbalanced class distribution)。这种情况是指:属于某一类别的观测样本的数量显著少转载 2017-08-01 17:09:03 · 15816 阅读 · 0 评论 -
机器学习中的算法(1)-决策树模型组合之随机森林与GBDT
转自:http://www.cnblogs.com/LeftNotEasy/archive/2011/03/07/random-forest-and-gbdt.html版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系wheeleast@gmail转载 2017-08-04 18:20:03 · 1048 阅读 · 0 评论 -
主成分分析(PCA)原理及推导
转自http://blog.youkuaiyun.com/zhongkejingwang/article/details/42264479 什么是PCA? 在数据挖掘或者图像处理等领域经常会用到主成分分析,这样做的好处是使要分析的数据的维度降低了,但是数据的主要信息还能保留下来,并且,这些变换后的维两两不相关!至于为什么?那就接着往下看。在本文中,将会很详细的解答这些问题:PCA、SVD、特征值、奇转载 2017-07-28 18:39:14 · 448 阅读 · 0 评论 -
常见机器学习算法优缺点
1.朴素贝叶斯模型形式:生成模型优点: 实现简单,所需要的估计参数很少,很好的利用了先验知识,学习和预测效率都很高。 对小规模的数据表现很好,能处理多分类任务,适合增量式训练。 对缺失数据不太敏感。缺点: 需要计算先验概率。 对发生频率较低的事件预测效果不好。2.KNN算法模型形式:判别模型优点: 模型不需要预原创 2017-08-21 16:56:21 · 952 阅读 · 0 评论 -
基于用户标签的时间衰减因子
转自:https://my.oschina.net/xiaoluobutou/blog/686183摘要: 标签的权重可以称为标签的热度,权重越大,热度就越高,时间衰减因子体现了标签的热度随着时间逐渐冷却的过程。背景依据用户发帖子所属于的分类,给用户打标签,并确定标签的权重。比如:A用户总共发了8个贴子,其中有1个帖子属于spark分类,3个属于hadoop分类,4个属转载 2017-09-24 15:00:55 · 25494 阅读 · 0 评论 -
word2vec 中的数学原理详解(四)基于 Hierarchical Softmax 的模型
word2vec 是 Google 于 2013 年开源推出的一个用于获取 word vector 的工具包,它简单、高效,因此引起了很多人的关注。由于 word2vec 的作者 Tomas Mikolov 在两篇相关的论文 [3,4] 中并没有谈及太多算法细节,因而在一定程度上增加了这个工具包的神秘感。一些按捺不住的人于是选择了通过解剖源代码的方式来一窥究竟,出于好奇,我也成为了他们中的一员。读转载 2017-10-30 17:01:17 · 311 阅读 · 0 评论 -
word2vec 中的数学原理详解(三)背景知识
word2vec 是 Google 于 2013 年开源推出的一个用于获取 word vector 的工具包,它简单、高效,因此引起了很多人的关注。由于 word2vec 的作者 Tomas Mikolov 在两篇相关的论文 [3,4] 中并没有谈及太多算法细节,因而在一定程度上增加了这个工具包的神秘感。一些按捺不住的人于是选择了通过解剖源代码的方式来一窥究竟,出于好奇,我也成为了他们中的一员。读转载 2017-10-30 16:55:12 · 261 阅读 · 0 评论 -
word2vec 中的数学原理详解(二)预备知识
word2vec 是 Google 于 2013 年开源推出的一个用于获取 word vector 的工具包,它简单、高效,因此引起了很多人的关注。由于 word2vec 的作者 Tomas Mikolov 在两篇相关的论文 [3,4] 中并没有谈及太多算法细节,因而在一定程度上增加了这个工具包的神秘感。一些按捺不住的人于是选择了通过解剖源代码的方式来一窥究竟,出于好奇,我也成为了他们中的一员。读转载 2017-10-30 16:53:46 · 263 阅读 · 0 评论 -
word2vec 中的数学原理详解(一)目录和前言
word2vec 是 Google 于 2013 年开源推出的一个用于获取 word vector 的工具包,它简单、高效,因此引起了很多人的关注。由于 word2vec 的作者 Tomas Mikolov 在两篇相关的论文 [3,4] 中并没有谈及太多算法细节,因而在一定程度上增加了这个工具包的神秘感。一些按捺不住的人于是选择了通过解剖源代码的方式来一窥究竟,出于好奇,我也成为了他们中的一员。读转载 2017-10-30 16:52:06 · 266 阅读 · 0 评论 -
8个经过证实的方法:提高机器学习模型的准确率
转自:http://www.ppvke.com/Blog/archives/26966导语:提升一个模型的表现有时很困难。如果你们曾经纠结于相似的问题,那我相信你们中很多人会同意我的看法。你会尝试所有曾学习过的策略和算法,但模型正确率并没有改善。你会觉得无助和困顿,这是90%的数据科学家开始放弃的时候。不过,这才是考验真本领的时候!这也是普通的数据科学家跟大师级数据科学转载 2017-08-01 16:19:19 · 594 阅读 · 0 评论 -
奇异值的物理意义是什么?
https://www.zhihu.com/question/22237507转载 2017-04-26 18:59:24 · 834 阅读 · 0 评论 -
机器学习优化算法—L-BFGS
转自:http://blog.youkuaiyun.com/henryczj/article/details/41542049?utm_source=tuicool&utm_medium=referral关于优化算法的求解,书上已经介绍了很多的方法,比如有梯度下降法,坐标下降法,牛顿法和拟牛顿法。梯度下降法是基于目标函数梯度的,算法的收敛速度是线性的,并且当问题是病态时或者问题规模较大时,收敛速度转载 2017-04-01 16:16:44 · 1013 阅读 · 0 评论 -
从最大似然到EM算法浅解
转自从最大似然到EM算法浅解zouxy09@qq.comhttp://blog.youkuaiyun.com/zouxy09 机器学习十大算法之一:EM算法。能评得上十大之一,让人听起来觉得挺NB的。什么是NB啊,我们一般说某个人很NB,是因为他能解决一些别人解决不了的问题。神为什么是神,因为神能做很多人做不了的事。那么EM算法能解决什么问题呢?或者说EM算法是因为什么而转载 2014-04-30 14:42:04 · 1030 阅读 · 0 评论 -
极大似然估计的朴素理解
最大似然法,英文名称是Maximum Likelihood Method,在统计中应用很广。这个方法的思想最早由高斯提出来,后来由菲舍加以推广并命名。最大似然法是要解决这样一个问题:给定一组数据和一个参数待定的模型,如何确定模型的参数,使得这个确定参数后的模型在所有模型中产生已知数据的概率最 大。通俗一点讲,就是在什么情况下最有可能发生已知的事件。举个例子,假如有一个罐子,里面有黑白两种颜色的转载 2014-04-30 10:16:22 · 1587 阅读 · 0 评论 -
weka数据格式问题
最近使用weka进行kmeans聚类时,自己定义的arff文件,总是报错,运行java时,报的错误如下:于是,使用weka图形化工具,查看arff文件,发现也报错,错误信息如下:通过分析发现,出现上述问题的原因是由于文件编码造成的,通过对文件编码进行各种转换,最后发现将文件转换成ASCII编码后,就没有问题了。原创 2014-02-18 10:33:22 · 1003 阅读 · 0 评论 -
libsvm工具包学习使用的一个好博客
http://blog.youkuaiyun.com/flydreamgg/article/details/4466023原创 2014-02-12 14:09:47 · 679 阅读 · 0 评论 -
语言模型
斯坦福大学自然语言处理第四课“语言模型(Language Modeling)”一、课程介绍斯坦福大学于2012年3月在Coursera启动了在线自然语言处理课程,由NLP领域大牛Dan Jurafsky 和 Chirs Manning教授授课:https://class.coursera.org/nlp/以下是本课程的学习笔记,以课程PPT/PDF为主,其他参考资料为辅转载 2014-01-07 19:07:04 · 32963 阅读 · 0 评论 -
分词:词性标注北大标准
汉语词性对照表[北大标准/中科院标准] 词性编码词性名称 注 解Ag形语素 形容词性语素。形容词代码为 a,语素代码g前面置以A。 a形容词 取英语形容词 adjective的第1个字母。 ad副形词 直接作状语的形容词。形容转载 2013-12-19 18:36:38 · 3595 阅读 · 0 评论 -
利用word2vec对关键词进行聚类
继上次提取关键词之后,项目组长又要求我对关键词进行聚类。说实话,我不太明白对关键词聚类跟新闻推荐有什么联系,不过他说什么我照做就是了。按照一般的思路,可以用新闻ID向量来表示某个关键词,这就像广告推荐系统里面用用户访问类别向量来表示用户一样,然后就可以用kmeans的方法进行聚类了。不过对于新闻来说存在一个问题,那就量太大,如果给你十万篇新闻,那每一个关键词将需要十万维的向量表示,随着新闻数迅转载 2013-12-05 16:23:41 · 8182 阅读 · 0 评论 -
VC维
今天开始看《支持向量机导论》,前面三章讲的还是通俗易懂的。但是第四章看了一节之后,就让人坠入云里雾里了。其中VC维数讲了长长的一大段,看了几遍都是不知所云。于是我只能BAIDU下了。果然,网上很多人对这个问题相当关心的,也有些很经典的解释。我摘录如下: VC维被认为是数学和计算机科学中非常重要的定量化概念,它可用来刻画分类系统的性能. 模式识别中VC维的直观定义是:对一个指示函转载 2013-03-28 17:04:34 · 880 阅读 · 0 评论 -
结构风险最小和VC维理论的解释
基于libsvm的中文文本分类原型 ,虽然做了原型,但是概念还不是很清晰。“支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上”结构化风险 结构化风险 = 经验风险 + 置信风险经验风险 = 分类器在给定样本上的误差置信风险 = 分类器在未知文本上分类的结果的误差置信风险因素:样本数量,给定的样本数量越大,学习结果越有可能正确,此时置信风险越转载 2013-03-28 17:00:18 · 979 阅读 · 0 评论 -
AI相关领域期刊会议列表
相关领域重要会议相关领域顶级会议ACL, the Association for Computational Linguistics. SIGIR, the ACM Special Interest Group on Information Retrieval.WWW, the International World Wide Web Conference. AAAI the As转载 2014-03-19 16:00:36 · 1179 阅读 · 0 评论 -
常用的两种数据平滑算法
一、拉普拉斯平滑转载 2014-04-30 15:29:03 · 28639 阅读 · 0 评论 -
中文词性标注与viterbi算法
一、viterbi算法原理及适用情况当事件之间具有关联性时,可以通过统计两个以上相关事件同时出现的概率,来确定事件的可能状态。以中文的词性标注为例。中文中,每个词会有多种词性(比如"希望"即是名字又是动词),给出一个句子后,我们需要给这个句子的每个词确定一个唯一的词性,实际上也就是在若干词性组合中选择一个合适的组合。动词、名词等词类的搭配是具有规律性的,比如动词+名词的形式是大量存转载 2014-04-28 17:17:38 · 7826 阅读 · 0 评论 -
隐马尔可夫模型(三)——隐马尔可夫模型的评估问题(前向算法)
转自:http://www.cnblogs.com/kaituorensheng/archive/2012/12/01/2797230.html隐马模型的评估问题即,在已知一个观察序列O=O1O2...OT,和模型μ=(A,B,π}的条件下,观察序列O的概率,即P(O|μ} 如果穷尽所有的状态组合,即S1S1...S1, S1S1..转载 2017-02-23 17:01:51 · 467 阅读 · 0 评论 -
隐马尔可夫模型(四)——隐马尔可夫模型的评估问题(后向算法)
转自:http://www.cnblogs.com/kaituorensheng/archive/2012/12/03/2800489.html对于HMM的评估问题,利用动态规划可以用前向算法,从前到后算出前向变量;也可以采用后向算法,从后到前算出后向变量。先介绍后向变量βt(i):给定模型μ=(A,B,π),并且在时间 时刻t 状态为si 的前提下,输出序列为Ot+1Ot+2...O转载 2017-02-23 16:59:47 · 378 阅读 · 0 评论 -
奇异值分解(SVD) --- 几何意义
转自:http://blog.sciencenet.cn/blog-696950-699432.htmlPS:一直以来对SVD分解似懂非懂,此文为译文,原文以细致的分析+大量的可视化图形演示了SVD的几何意义。能在有限的篇幅把这个问题讲解的如此清晰,实属不易。原文举了一个简单的图像处理问题,简单形象,真心希望路过的各路朋友能从不同的角度阐述下自己对SVD实际意义的理解,比如 个性化推荐转载 2016-11-14 18:22:16 · 458 阅读 · 0 评论 -
聚类算法实践(一)——层次聚类、K-means聚类
摘要: 所谓聚类,就是将相似的事物聚集在一 起,而将不相似的事物划分到不同的类别的过程,是数据分析之中十分重要的一种手段。比如古典生物学之中,人们通过物种的形貌特征将其分门别类,可以说就是 一种朴素的人工聚类。 ... 所谓聚类,就是将相似的事物聚集在一起,而将不相似的事物划分到不同的类别的过程,是数据分析之中十分重要的一种手段。比如古典生物学之中,人们转载 2016-05-18 10:02:11 · 15072 阅读 · 0 评论 -
浅谈我对DB INDEX (Davies Bouldin index)的理解
本人原创作品,转载请注明出自网易博客双鱼传说! 说实话,国内的资料少之又少,去搜下GOOGLE大神的KEYWORD好了,我看到的不是求助就是论文摘要。这到底是个啥东西,为什么有人问没人说呢? 不解,我只能自己写……Davies Bouldin index,如果照中文直译的话,可以叫做戴维森堡丁指数,有的论文里叫做分类适确性指标,以下简称DBI。这个指数或者指标是来确定到底你的测转载 2016-05-17 10:00:01 · 10040 阅读 · 1 评论 -
基于大规模语料的新词发现算法
摘要:挖掘新词的传统方法是先对文本进行分词,猜测未能成功匹配片段就是新词。但这种方式依赖于词库的完整性,如果词库中根本没有新词,我们又怎能信任分词结果呢?顾森在文中介绍了一种基于大规模语料的新词发现算法。对中文资料进行自然语言处理时,我们会遇到很多其他语言不会有的困难,例如分词——汉语的词与词之间没有空格,那计算机怎么才知道“已结婚的和尚未结婚的”究竟是“已/结婚/的/和/尚未/结婚/的”,还转载 2016-02-01 09:44:55 · 1360 阅读 · 0 评论 -
Mallet 使用说明
Mallet是专门用于机器学习方面的软件包,此软件包基于java。通过mallet工具,可以进行自然语言处理,文本分类,主题建模。文本聚类,信息抽取等。下面是从如何配置mallet环境到如何使用mallet进行介绍。 一.实验环境配置1. 下载并安装JDK,并正确设置环境变量需设置三个环境变量:² JAVA_HOME:该环境变量的值就是Java所在的目录,转载 2013-06-07 16:08:36 · 1642 阅读 · 0 评论 -
常用降维方法
降维方法分为线性核非线性降维,非线性降维又分为基于核函数和基于特征值的方法。线性降维方法:PCA ICA LDA LFA LPP(LE的线性表示)基于核函数的非线性降维方法:KPCA KICA KDA 基于特征值的非线性降维方法(流型学习):ISOMAP LLE LE LPP LTSA MVULLE(Locally Lin转载 2014-12-06 21:53:06 · 12035 阅读 · 0 评论