一般分词策略

最新推荐文章于 2024-08-07 07:15:00 发布

转载最新推荐文章于 2024-08-07 07:15:00 发布 · 215 阅读

·

1

·

CC 4.0 BY-SA版权

原文链接：https://my.oschina.net/cnphp/blog/26206

为什么80%的码农都做不了架构师？>>>

l 第一种，默认的单字切分。这种分词策略实现起来最简单，举个例子，有以下句子：“我们在吃饭呢”，则按字切分为[我]、[们]、[在]、[吃]、[饭]、[呢]。按这种方法分词所得到的term是最少的，因为我们所使用的汉字就那么几千个，但随便所索引的数据量的增大，索引文件的增长比例却比下面的几种模型都要大，虽然其召回率是很高的，但精确率却非常低，而且一般情况下性能也是最差的。

l 第二种，二元切分，即以句子中的每两个字都作为一个词语。继续拿“我们在吃饭呢”这个句子作例子，用二元切分法会得到以下词：[我们]、[们在]、[在吃]、[吃饭]、[饭呢]。这种切分方法比第一种要好，精确率提高了，召回率也没降低多少（实际上两者都不高，太中庸了）。

l 第三种：按照词义切分。这种方法要用到词典，常见的有正向最大切分法和逆向最大切分法等。我们再拿“我们在吃饭呢”作为例子。使用正向切分法最终得到词语可能如下：[我们]、[在吃]、[饭]、[呢]，而使用逆向最大切分法则可能最终得到以下词语：[我们]、[在]、[吃饭]、[呢]。只要处理好在庞大的词典中查找词语的性能，基于词典的分词结果会挺不错。

l 第四种：基于统计概率切分。这种方法根据一个概率模型，可以从一个现有的词得出下一个词成立的概率，也以“我们在吃饭呢”这个句子举个可能不恰当的例子，假设已经存在[我们]这个词语，那么根据概率统计模型可以得出[吃饭]这个词语成立的概率。当然，实际应用中的模型要复杂得多，例如著名的隐马尔科夫模型。

在实际的中文分词应用中，一般会将按词典切分和基于统计概率切分综合起来，以便消除歧义，提高精确率。

转载于:https://my.oschina.net/cnphp/blog/26206

weixin_33860528

博客等级

码龄10年

167
原创

189
点赞

1083
收藏

4978
粉丝

关注

私信

热门文章

上一篇：: Symfony2插件FOSRestBundle的使用说明

下一篇：: Ext框架基础

最新评论

对讲机的那点事：带你玩转LD800数字车载台读、写频操作：一
2401_83204658: 大佬能不能提供个写频软件LD800车载台，急求🤝
strapi 开源api && 内容管理平台试用
weixin_43367479: 你好，我直接发get请求拿不到关联字段的数据，你自己为啥吗
python爬虫从入门到放弃（七）之 PyQuery库的使用
DCLe: 想请教一下，我的输出为什么是像遍历一样？ <div> <ul> <li class="item-0">first item</li> <li class="item-1"><a href="link2.html">second item</a></li> <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li> <li class="item-1 active"><a href="link4.html">fourth item</a></li> <li class="item-0"><a href="link5.html">fifth item</a></li> </ul> </div> <class 'pyquery.pyquery.PyQuery'> <li class="item-0">first item</li> <li class="item-1"><a href="link2.html">second item</a></li> <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li> <li class="item-1 active"><a href="link4.html">fourth item</a></li> <li class="item-0"><a href="link5.html">fifth item</a></li> </ul> </div> <li class="item-1"><a href="link2.html">second item</a></li> <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
教你在Nodejs中如何获取当前函数被调用的行数及文件名
乘风飞鹤: 2ms忽略不计？？？
视频云王海华：关于移动短视频技术选型的那些事
papaofdoudou: 不错，收藏了。

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。