还是先上新概念。
分词
我们在做文本挖掘的时候,要对文本做的预处理首先就是分词。对于英文来说,因此单词之间天然有空格隔开,因此可以按照空格分词(但也有需要把多个单词做成一个分词的时候)。而对于中文来说,由于没有空格,那么分词就变成了一个需要专门去处理去解决的问题。
我们现在的分词都是基于统计来分词。对于一个良好的分词系统来说应该由词典和统计两套系统组成。统计,是为了给词典不断可持续地更新,不断加入新词。在分词的过程中,首先,一个良好的词典很重要;其次,算法要跟着需求,跟着应用场景走,针对不同的需求我们应该选择不同的算法。
下面介绍几个简单的分词方法:
正向最大匹配法
逆向最大匹配法
双向最大匹配法
正向最大匹配法:
从前往后去词,每次减少一个字,直到分词系统的词典命中分词或只剩下一个字。
首先,机械匹配分词法分为增字匹配法和减字匹配法。增字法一般与最小匹配相结合,即从一个字开始增加,而减字法常与最大匹配相结合。(这应该不难理解)因此正向最大匹配法采用减字匹配法较为常见
下面举例来源网络:
第1次:“我们在野生动物”,扫描7字词典,无
第2次:“我们在野生动”,扫描6字词典,无
。。。。
第6次:“我们”,扫描2字词典,有
扫描中止,输出第1个词为“我们”,去除第1个词后开始第2轮扫描,即:
第2轮扫描:
第1次:“在野生动物园玩”,扫描7字词典,无
第2次:“在野生动物园”,扫描6字词典,无
。。。。
第6次:“在野”,扫描2字词典,有
扫描中止,输出第2个词为“在野”,去除第2个词后开始第3轮扫描,即:
第3轮扫描:
第1次:“生动物园玩”,扫描5字词典,无
第2次:“生动物园”,扫描4字词典,无
第3次:“生动物”,扫描3字词典,无
第4次:“生动”,扫描2字词典,有
扫描中止,输出第3个词为“生动”,第4轮扫描,即:
第4轮扫描:
第1次:“物园玩”,扫描3字词典,无
第2次:“物园”,扫描2字词典,无
第3次:“物”,扫描1字词典,无