文本分词方法

最新推荐文章于 2023-12-09 10:11:33 发布

成伟

最新推荐文章于 2023-12-09 10:11:33 发布

阅读量3.6k

点赞数 2

CC 4.0 BY-SA版权

分类专栏：其它技术文章文章标签：分词 jieba 结巴文本挖掘文本分词

本文链接：https://blog.youkuaiyun.com/u013660881/article/details/46011303

本文介绍了三种中文分词方法：mmseg4j、词频分组和jieba分词。其中，jieba分词因其准确率和效率较高而被推荐，支持多种分词模式。如果你有其他高效的分词方案，作者欢迎分享。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

废话不多说，我就直接上干货吧，从过去到现在所知道的分词方法有以下几种：
1、mmseg4j

2、词频分组（有序文本足够）

3、jieba分词

下面细说一下几种分词方法，
第一种，mmseg4j，我使用这种方法是以R来分词的，所以就用R来说这个包，R中这个包的名字叫“rmmseg4j”，详情见该帖：[程序分享]R与中文分词，R中的mmseg包，使用方法如下R code，这种方法还有一个java版本的分词，大家有兴趣的可以试试。

     install.packages("rmmseg4j")
     library(rmmseg4j)#加载安装包
     #然后就是直接的分词了
     word = "我爱小猫小狗，你呢？"
     mmseg4j(word)

第二种，词频分组，该方法就讲讲逻辑，不具体贴出code了。这种方法是限制较大，它必须根据词频、字频得来的，所以原始数据必须是文章或者是一堆有关联的关键词，且必须有一定量级才可以使用；
首先，拆分词句成单字，取一批高频单字，找出高频单字所组成的词，从中选出频数最高的词，该词就是分出的高频词根，然后再将该高频词根从原文或者词中去掉，继续递归，最终无法得出词根为止，这批结果就是高频词根了。
该方法限制较多，且可能由于文章或者词库的变动较大，对于拆出的词根会有很大的影响。

第三种，jieba是“结巴”中文分词（Python）的版本，支持最大概率法（Maximum Probability），隐式马尔科夫模型（Hidden Markov Model），索引模型（QuerySegment），混合模型（MixSegment）共四种分词模式。接触它的时候是使用的R版本，后面才开始使用python版本这里我就