
中文分词
时空霹雳
这个作者很懒,什么都没留下…
展开
-
用正向和逆向最大匹配算法进行中文分词(续)
本文是用正向和逆向最大匹配算法进行中文分词原创 2014-07-15 23:02:33 · 2900 阅读 · 0 评论 -
最大概率法分词中词频惩罚因子的作用探究
在最大概率法分词的程序中,由于每个词出现的次数分布非常不均匀,而且我们要计算每个词出现的概率,对于出现次数比较少的词概率就很小,求句子中词的概率之积的时候,需要将好多非常小的数作乘法,可能会将超出计算机所能表示的数的最小范围。为了便于计算,常常要将每个词的概率求对数后在进行计算,但是由于对概率求对数后变为负值,因此要求对应的相反数。所以一个词出现的次数越多,最后求得对应的值越小,我们将这个值称为这原创 2014-07-19 00:53:09 · 2320 阅读 · 0 评论 -
隐马尔科夫模型(HMM)分词研究
第一部分 模型简介 隐马尔可夫模型是马尔可夫链的一种,它的状态不能直接观察到,但能通过观测向量序列观察到,每个观测向量都是通过某些概率密度分布表现为各种状态,每一个观测向量是由一个具有相应概率密度分布的状态序列产生。所以,隐马尔可夫模型是一个双重随机过程 ----具有一定状态数的隐马尔可夫链和显示随机函数集。自20 世纪80年代以来,HMM被应用于语音识别,取得重大成功。到了90原创 2014-07-28 20:05:24 · 3253 阅读 · 6 评论 -
用正向和逆向最大匹配算法进行中文分词
1.概述 用正向和逆向最大匹配算法进行中文份额原创 2014-07-14 22:22:33 · 5609 阅读 · 1 评论 -
N元语法模型的数据稀疏问题解决方法之一:Good-Turing平滑
在统计语言模型章节中,我们谈到了N元语法模型不可避免的一个问题,就是数据稀疏,其原因是大规模语料统计与有限语料的矛盾。根据齐普夫(Zipf)法则,我们能够推测知零概率问题不可避免。数据稀疏问题的解决办法就是进行平滑处理。平滑处理的算法有很多,本文将介绍众多算法中的佼佼者:古德-图灵(Good-Turing)平滑算法。 古德-图灵(Good-Turing)估计法是很多平滑技术的转载 2014-07-28 20:57:53 · 7586 阅读 · 2 评论 -
二阶和三阶隐马尔柯夫过程(HMM)进行中文分词的效果对比
第一部分 引言 关于隐马尔柯夫模型的详细内容在此就不详细介绍了,介绍HMM模型的文章很多,请读者自行去学习。二阶隐马尔柯夫模型解决问题有两个假设:其一是当前的状态仅与它前面相邻的状态有关;其二是状态转换和从某个状态发射某个观察符号的概率与时间t无关(即不动性假设)。HMM是在这两个假设的前提下解决各种各样的问题的。 对于第二个假设,我们不去讨论它。现在来看第一原创 2014-08-01 15:15:33 · 5506 阅读 · 3 评论 -
用最大熵模型进行字标注中文分词(Python实现)
同前面的那篇文章一样(参见:最大熵模型进行中文分词),本文运用字标注法进行中文分词,分别使用4-tag和6-tag对语料进行字标注,观察分词效果。前面的文章中使用了模型工具包中自带的一个样例进行4-tag中文分词,但由于其选取的特征是针对英文词性标注开发的,故准确率和召回率较低(召回率为83.7%,准确率为84.1%)。 PS:为什么用作词性标注的特征也可以用来做分词呢?这是因为最大熵模型处理原创 2014-08-09 17:35:18 · 8329 阅读 · 0 评论 -
最大概率法分词及性能测试
最大概率分词是一种最基本的统计方法分词。一个待分割的字符串有多种分词结果,最大概率分词的原则是将其中概率最大的那个作为该字符串的分词结果。第一部分 理论基础 如对一个字符串: S:有意见分歧 分词结果1: w1:有/ 意见/ 分歧/ 分词结果2: w2:有意/ 见/ 分歧/ 最大概率分原创 2014-07-19 10:58:17 · 6748 阅读 · 1 评论 -
最大熵模型(Maximum Entropy Models)详细分析
由于本篇文章公式较多,csdn博客不允许复制公式,如果将公式一一保存为图片在上传太繁琐了,就用word排好版后整页转为图片传上来了,如有错误之处,欢迎指正。原创 2014-08-08 11:38:17 · 3234 阅读 · 0 评论 -
正向(逆向)最大匹配和最大概率法分词的错误分析
1.基本情况 从语料中选取了200个句子作为样本,分别用三种不同的分词方式进行分词,观察他们产生的错误,从而得出其中的规律。将错误的结果过滤掉重复的内容之后,得到的错误结果如下所示:正向最大匹配切分错误数量:245交集型歧义:45个未登录词语:167个组合型歧义:33个逆向最大匹配切分错误数量:245交集型歧义:41个未登录词语:1原创 2014-07-18 17:06:42 · 4171 阅读 · 0 评论 -
用条件随机场CRF进行字标注中文分词(Python实现)
本文运用字标注法进行中文分词,使用4-tag对语料进行字标注,观察分词效果。模型方面选用开源的条件随机场工具包“CRF++: Yet Another CRF toolkit”进行分词。 本文使用的中文语料资源是SIGHAN提供的backoff 2005语料,目前封闭测试最好的结果是4-tag+CFR标注分词,在北大语料库上可以在准确率,召回率以及F值上达到92%以上的效果,在原创 2014-08-13 23:33:28 · 27371 阅读 · 0 评论