
自然语言处理
cnki_ok
这个作者很懒,什么都没留下…
展开
-
基于CRF的中文分词(ZT)
Conditional Random Fields: An Introductionwww.cs.umass.edu/~wallach/technical_reports/wallach04conditional.pdfCRF简介<br />Conditional Random Field:条件随机场,一种机器学习技术(模型)<br />CRF由John Lafferty最早用于NLP技术领域,其在NLP技术领域中主要用于文本标注,并有多种应用场景,例如:分词(标注字的词位信息,由字构词)词性标注(标注分词转载 2011-04-18 17:31:00 · 1161 阅读 · 0 评论 -
统计模型之间的比较
HMM模型将标注看作马尔可夫链,一阶马尔可夫链式针对相邻标注的关系进行建模,其中每个标记对应一个概率函数。HMM是一种产生式模型,定义了联合概率分布 ,其中x和y分别表示观察序列和相对应的标注序列的随机变量。为了能够定义这种联合概率分布,产生式模型需要枚举出所有可能的观察序列,这在实际运算过程中很困难,因为我们需要将观察序列的元素看做是彼此孤立的个体即假设每个元素彼此独立,任何时刻的观察结果只依赖转载 2014-02-12 10:36:08 · 1110 阅读 · 0 评论 -
统计自然语言处理的基础学习之一
1. NLP的一些基本概念和问题计算机如何处理自然语言?理性主义:其实就是纯粹使用规则的方法处理自然语言,并认为这些语言规则天生就存在人的基因中。在计算机中重现这些规则,就能学会人的语言处理能力。经验主义:认为人有感知和学习能力,通过概括、模式识别、联想等能力,来学习到自然语言的结构。哲学上的问题,类似于起源之类,就先别考虑的。统计方法在NLP中的地位是什么?转载 2013-11-10 18:39:07 · 1125 阅读 · 0 评论 -
CRF代码资源
CRFSharp Linear-chain CRFs (C#, .NET)GCO CRFs with submodular energy functions (C++, Matlab)GRMM General CRFs (Java)CRFall General CRFs (Matlab)Sarawagi's CRF Linear-chain CRFs (Java)HCRF library转载 2013-11-17 23:25:21 · 2009 阅读 · 0 评论 -
几种不同程序语言的HMM版本
C语言版:1、 HTK(Hidden Markov Model Toolkit):HTK是英国剑桥大学开发的一套基于C语言的隐马尔科夫模型工具箱,主要应用于语音识别、语音合成的研究,也被用在其他领域,如字符识别和DNA排序等。HTK是重量级的HMM版本。HTK主页:http://htk.eng.cam.ac.uk/2、 GHMM Library:The General Hidd转载 2013-06-09 21:37:42 · 898 阅读 · 0 评论 -
自然语言处理的关键技术
自然语言处理技术是所有与自然语言的计算机处理有关的技术的统称,其目的是使计算机理解和接受人类用自然语言输入的指令,完成从一种语言到另一种语言的翻译功能。自然语言处理技术的研究,可以丰富计算机知识处理的研究内容,推动人工智能技术的发展。下面我们就来了解和分析自然语言处理的关键技术。 一、 常用技术分类 1、 模式匹配技术模式匹配技术主要是计算机将输入的语言内容与其内已设定转载 2013-05-28 11:24:23 · 3442 阅读 · 1 评论 -
HMM学习笔记_2(从一个实例中学习HMM前向算法)
HMM算法想必大家已经听说了好多次了,完全看公式一头雾水。但是HMM的基本理论其实很简单。因为HMM是马尔科夫链中的一种,只是它的状态不能直接被观察到,但是可以通过观察向量间接的反映出来,即每一个观察向量由一个具有相应概率密度分布的状态序列产生,又由于每一个状态也是随机分布的,所以HMM是一个双重随机过程。HMM是语音识别,人体行为识别,文字识别等领域应用非常广泛。一个HMM模型可以用5个转载 2013-01-31 16:06:17 · 626 阅读 · 0 评论 -
HMM学习笔记_3(从一个实例中学习Viterbi算法)
在上一篇博客http://www.cnblogs.com/tornadomeet/archive/2012/03/24/2415583.html中,我们已经从一个例子中学会了HMM的前向算法,解决了HMM算法的第一个问题,即模型评估问题。这一讲中我们来解决第二个问题:HMM的解码问题,即即给定观测序列 O=O1O2O3…Ot和模型参数λ=(A,B,π),怎样寻找满足这种观察序列意义上最优的隐含状态转载 2013-01-31 16:08:08 · 926 阅读 · 0 评论 -
HMM学习笔记_1(从一个实例中学习DTW算法)
DTW为(Dynamic Time Warping,动态时间归准)的简称。应用很广,主要是在模板匹配中,比如说用在孤立词语音识别,计算机视觉中的行为识别,信息检索等中。可能大家学过这些类似的课程都看到过这个算法,公式也有几个,但是很抽象,当时看懂了但不久就会忘记,因为没有具体的实例来加深印象。这次主要是用语音识别课程老师上课的一个题目来理解DTW算法。首先还是介绍下DTW的思想:假设现在有转载 2013-01-31 16:07:14 · 782 阅读 · 0 评论 -
CRF++的简单使用
CRF++是著名的条件随机场开源工具,也是目前综合性能最佳的CRF工具。本文简要介绍其使用方法。一、工具包的下载:a) http://crfpp.sourceforge.net其中有两种,一种是Linux下(带源码)的,一种是win32的,当然是在什么平台下用就下载什么版本了。b) http://download.youkuaiyun.com/source/14转载 2012-12-18 18:23:18 · 680 阅读 · 0 评论 -
2008-05-10 11:41 基于trie树的分词算法(转载)
#ifndef _TRIE_H_#define _TRIE_H_struct trie_node{int value;int eof;/* the tag of end*/struct trie_node *child,*sibling;};extern void init_index();extern int create_index(FILE *findex转载 2012-11-24 16:47:17 · 720 阅读 · 1 评论 -
UE正则表达式语法
% 匹配行首 - 表示搜索字符串必须在行首,但不包括任何选定的结果字符中的行终止字符。$ 匹配行尾 - 表示搜索字符串必须在行尾,但不包括任何选定的结果字符中的行终止字符。? 匹配任何除换行符的字符。如:m?n 匹配“man”、“men”、“min”,但不匹配“moon”。* 匹配任何除换行符外所出现的任意数量的字符。如:t*t 匹配“test”、“tonight”和“tea转载 2012-12-03 13:31:51 · 566 阅读 · 0 评论 -
wget 命令
wget是在Linux下开发的开放源代码的软件,作者是Hrvoje Niksic,后来被移植到包括Windows在内的各个平台上。它有以下功能和特点:(1)支持断点下传功能;这一点,也是网络蚂蚁和FlashGet当年最大的卖点,现在,Wget也可以使用此功能,那些网络不是太好的用户可以放心了;(2)同时支持FTP和HTTP下载方式;尽管现在大部分软件可以使用HTTP方式下载,但是,有些时候转载 2012-08-29 20:19:56 · 783 阅读 · 0 评论 -
windows 上使用wget
我们都知道wget这个工具是Linux、Unix下才能使用的。那么windows平台下到底可否使用?答案是确定的可以的!!! 请从下面链接下载wget(1.11.4) for win: http://users.ugent.be/~bpuype/wget/ 。下载完成后,解压出wget.exe文件,把它放到c:\windows\sytem32目录下。 进入命令行 运行-转载 2012-08-29 17:18:42 · 33414 阅读 · 2 评论 -
基于贝叶斯算法的文本分类算法
因为要做一个关于数据挖掘的算法应用PPT,虽然知道很多数据挖掘的算法怎么使用,但是需要讲解它们的原理,还真的需要耗费很多精力,之前做一个曲线拟合,已经发在博客里,现在做贝叶斯算法的基础原理。1、基本定义:分类是把一个事物分到某个类别中。一个事物具有很多属性,把它的众多属性看作一个向量,即x=(x1,x2,x3,…,xn),用x这个向量来代表这个事物,x的集合记为X,称为属性集。类别转载 2014-09-05 16:33:55 · 753 阅读 · 0 评论