
NLP
文章平均质量分 68
Erli11
机器学习 个性化推荐 数据结构 算法
展开
-
最大熵模型介绍及实现
最大熵模型介绍Overview统计建模方法是用来modeling随机过程行为的。在构造模型时,通常供我们使用的是随机过程的采样,也就是训练数据。这些样本所具有的知识(较少),事实上,不能完整地反映整个随机过程的状态。建模的目的,就是将这些不完整的知识转化成简洁但准确的模型。我们可以用这个模型去预测随机过程未来的行为。在统计建模这个领域,指数模型被证明是非常好用的。因此,转载 2014-04-29 15:33:17 · 53445 阅读 · 8 评论 -
特征选择方法之信息增益
前文提到过,除了开方检验(CHI)以外,信息增益(IG,Information Gain)也是很有效的特征选择方法。但凡是特征选择,总是在将特征的重要程度量化之后再进行选择,而如何量化特征的重要性,就成了各种方法间最大的不同。开方检验中使用特征与类别间的关联性来进行这个量化,关联性越强,特征得分越高,该特征越应该被保留。在信息增益中,重要性的衡量标准就是看特征能够为分类系统带来多少信息,带转载 2014-03-20 20:05:29 · 1518 阅读 · 0 评论 -
斯坦福大学自然语言处理第七课“情感分析(Sentiment Analysis)”
一、课程介绍斯坦福大学于2012年3月在Coursera启动了在线自然语言处理课程,由NLP领域大牛Dan Jurafsky 和 Chirs Manning教授授课:https://class.coursera.org/nlp/以下是本课程的学习笔记,以课程PPT/PDF为主,其他参考资料为辅,融入个人拓展、注解,抛砖引玉,欢迎大家在“我爱公开课”上一起探讨学习。课件汇转载 2014-04-17 11:05:41 · 29011 阅读 · 2 评论 -
【基本概念】信息熵 条件熵 联合熵 左右熵 互信息
1 自信息一个信源可按某种概率发出若干不同的信号,每个信号带有的信息量称为其自信息。信源:随机变量;信号:随机变量的取值。基于定性分析,自信息的特性应当是:非负、递增。具有这样的特性的函数有很多,人们构造出如下定义式:ωn :随机变量X的某个取值;P(ωn):X取该值的概率2 熵¨定义:设随机变量X,取值空间Ω,Ω为有限集合。X的原创 2014-03-20 12:18:38 · 20654 阅读 · 2 评论 -
关键词抽取简介
转自:http://ling0322.info/2014/04/08/introduction-to-keyphrase-extraction.html关键词提取就是从文本里面把跟这篇文章意义最相关的一些词抽取出来。这个可以追溯到文献检索初期,当时还不支持全文搜索的时候,关键词就可以作为搜索这篇论文的词语。因此,目前依然可以在论文中看到关键词这一项。除了这些以外,关键词还可以在转载 2014-07-01 11:41:24 · 11930 阅读 · 0 评论