
NLP
文章平均质量分 66
李亚超
自强不息,厚德载物;
专注于Deep Learning, Machine Translation, NLP;
喜欢写关于Linux C/C ,C#,算法,自然语言处理的技术博客,欢迎观临;
展开
-
统计自然语言处理系列文章介绍
统计自然语言处理系列文章介绍 李亚超 2010-10-28 这段时间(以后可能从事这方面的工作)由于工作的需要,需要对统计自然语言理解做详细的学习。关于这方面的中文资料很少,而经典的文章、教材都是英文原版的。本来我的英文水平不太好,也就是六级左右的水平,阅读英文原版书并不是很轻松。在这一个多月的学习中,看了很多,感觉学到了很多。可以又觉得什么也没学到,如果别人要我说出个一二三,我有可能说不上来,虽然我觉得自己也明白。也许是我的表达能力不足,也学识原创 2010-10-28 16:34:00 · 1328 阅读 · 2 评论 -
最大熵工具包的模型文件格式分析及比较
此处用的是Dekang Lin的实现代码:命令行的格式为USAGE: testme MODEL TRAIN 参数1:模型配置文件,以zoo.model为例。0.10 57c1 c2 c3 c4 c5 c6 c7第一行的有三列,数值分别为0.1, 0, 5, 表示alpha , threshold, maxIterations。第二行第一列的数字7表示有7个tag,后面原创 2012-11-24 11:33:08 · 3671 阅读 · 2 评论 -
【模式识别与机器学习】模式识别中的一些基本概念
1 特征(feature):如果有一个区分鱼的类别的系统,可以分类的依据为长度、光泽、宽度、鳍的数目和形状、嘴的位置。这些可以利用的要素称为模式分类的特征。2 模型(model):如果鱼的不同类别之间确实存在某种差异,我们称之为具有不同的模型,即可以用数学形式表达的不同特征的描述。在模式识别系统中,经常会用到三种密切相关的系统,回归分析、函数内插和(概率)密度估计。3 回归(regre原创 2012-07-02 11:27:55 · 4253 阅读 · 2 评论 -
【模式识别与机器学习】贝叶斯公式
1 贝叶斯公式设x是个随机变量,表示为鱼的光泽度,w1、w2分别表示鲈鱼和鲑鱼。已知的先验概率为p(w1)+p(w2) = 1。P(x | w) 表示类别状态为w时的x的概率密度函数,有时也称为状态条件概率密度。因此,p(x | w1)与p(x | w2)之间的区别就表示了鲈鱼与鲑鱼间光泽度的区别。如图2.1在通过观察和测量(这在实际应用中,可以通过训练语料的出),发现了一原创 2012-07-03 10:26:08 · 7805 阅读 · 1 评论 -
ScorePP-用标准C++实现的自动分词评测程序
中文分词是自然语言处理的基础性关键问题,近一年来一直在进行着分词方面的研究。一开始用的是Sighan backoff 提供的用Perl脚本编写的分词打分程序Score。为了把用C++写的分词程序和评测程序无缝的结合在一起,同时也为了自动的分析分词中的错误原因,参考Score改写了在C++下的评测程序,我自己称它为ScorePP。 为了分词很长时间都没有休息了。中午走出自动化所的食原创 2012-04-13 17:05:58 · 3578 阅读 · 2 评论 -
一个通用的Trie树,标准C++实现
1 Trie简介 Trie树,又称单词查找树或键树,是一种树形结构,是一种哈希树的变种。典型应用是用于统计和排序大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:最大限度地减少无谓的字符串比较,查询效率比哈希表高。 在本文中,对于输入的进行序列化,比如输入“单词查找树”,序列化为“单/词/查/找/树”,这样可以进行任何一种自原创 2012-04-03 13:09:12 · 6242 阅读 · 1 评论 -
自然语言处理的最大熵方法 之1
A Maximum Entropy Approach to Natural Language Processing(自然语言处理的最大熵方法 ) 最大熵的方法可以追溯到圣经时期(Biblical times)。但是,到了目前计算机已经变得足够的强大,在现实世界中的实际问题,比如统计估计、模式识别等问题可以用到最大熵的概念来处理。在本文,我们介绍一个基于最大熵的统计方法。展示了翻译 2012-02-17 19:52:17 · 5056 阅读 · 0 评论 -
机器学习概论
在一组数据集中检索特定的模式问题是一个很基础,且历史很长的并取得了很大成功的问题。例如,16世纪在Tycho Brahe兴起的天文热中,开普勒(Johannes Kepler)发现了星球运动的实际规律,这些发现最终导致了经典力学的发展。类似的,原子光谱规律的发现,对于20世纪早起的量子物理学的发展和确定起到了关键的作用。模式识别的研究领域集中在通过计算法程序算法从数据集中自动的发现数据的规律,通过翻译 2012-01-04 11:57:03 · 2693 阅读 · 0 评论 -
模式识别和机器学习简介
模式识别起源于工程领域,而机器学习起源于计算机科学。然而这些不同的学科可以看做是一个领域的不同方向,并且在过去几十年中都经历了长足的发展。特别指出的是贝叶斯方法(Bayesian methods)从过去的专利方法(specialist niche),变成了主流的方法(mainstream),图模型作为通用框架来描述和应用概率模型而兴起来。贝叶斯方法的实际实用性极大的促进了一系列近似推理算法(app原创 2012-01-01 16:27:19 · 6282 阅读 · 0 评论 -
2D Trie for Fast Parsing-1
声明:文本为“2D Trie for Fast Parsing[Xian Qian,,,.School of Computer Science, Fudan University]”的学习笔记。1简介 在实际的应用中,解码的速度很重要。最新的结构化学习技术都是采用基于模板的方法(template based method)来抽取数百万的特征(features)。复杂的模板翻译 2012-01-10 11:51:54 · 1638 阅读 · 0 评论 -
模式识别与机器学习基础之2---再看曲线拟合
声明:本文由英文原版“Pattern Recognition and Machine Learning”翻译而来,文中的插图均为原书的配图,只为学习目的。在上文中已经知道了曲线拟合(polynomial curve fitting)问题可以用误差最小化(error minimization)概念来表示。这里用概率的观点来重新看待曲线拟合问题,因此对于以下概念要了解一下:error func翻译 2012-01-08 13:27:37 · 3207 阅读 · 3 评论 -
模式识别与机器学习基础之1-一个简单的回归问题(regression problem)
声明:本文由英文原版“Pattern Recognition and Machine Learning”翻译而来,文中的插图均为原书的配图,只为学习目的。这里介绍一个简单的回归问题(regression problem),在下文中利用这个例子讲解几个关键的概念。假如,我们观察到一个实数(real-valued)输入变量x,期望利用观察到的这个变量预测这个实数的实数目标变量t。就以目前的目的翻译 2012-01-07 16:37:19 · 4469 阅读 · 3 评论 -
统计自然语言处理---信息论基础
<br />统计自然语言处理---信息论基础<br /> 李亚超 2010-10-29<br /><br />1 简介<br /> 信息论产生于20世纪,最早由Shannon(Claude Shannon)提出。 那时Shannon在研究如何在由噪音的通信链路上尽量提高数据的传输量,为了能够从理论上求出最大的数据压缩律,Shannon提出了熵(Entropy)的概念。注意这个概念很重要,是信息论的基本理论,以后会多次用到。这里我要 介绍的包括熵(原创 2010-11-07 09:35:00 · 3253 阅读 · 1 评论 -
统计自然语言处理 之 数学基础
<br />统计自然语言处理--数学基础<br /> 李亚超 2010-10-28<br />1简介<br /> 这一部分介绍统计自然语言处理的数学基础,主要内容包括概率论和数理统计。要把所有要点详细的介绍完,很难。在这里,我只是把以后在自然语言处理中会用得到比较重要的数学知识做个介绍。单纯的数学公式是很枯燥的,比如在上中学时学的余弦定理,那时候就是一个单纯的数学公式,但是现在自然语言处理上,比如新闻分类,那就生动多了。多以在这里我想说的是数学是百科之母。<b原创 2010-11-01 19:46:00 · 2618 阅读 · 0 评论 -
统计自然语言处理简介
统计自然语言处理简介,数学基础,概率论,Zipf 定理,词语搭配原创 2010-10-28 16:51:00 · 3082 阅读 · 0 评论 -
张乐最大熵工具包的模型文件格式分析
本文为张乐最大熵工具包模型文件格式分析:训练文件如下:c1 f21 f30 f40 f51 f60 f70 f81 f91 f101 f111 f120 f130 f144 f150 f160 f171c1 f21 f30 f40 f51 f60 f70 f80 f91 f101 f111 f120 f130 f144 f151 f160 f171c4 f20 f30 f41 f5原创 2012-11-24 20:12:02 · 4592 阅读 · 0 评论