最近在做nlp的任务,经常会用到分词。有个问题:nltk的word_tokenizer和直接使用split(' ')感觉效果是类似的,而且还会出现can't这类的词被word_tokenizer切分成ca n't。这样看来,以后分词就直接使用split(' ')更加高效和正确么???
2021自己更新:
现有分词工具:
1.nltk,确实有can't这类切分问题,不好。
2.pyenchant,可以很好的解决can‘t这类切分问题,完全依赖空格和标点符号进行切分,在标点有问题的情况下,切分绝对有问题。
3.spacy,不太记得了,应该是最好的。可以在没有符号的情况下进行分句,所以应该分词没有大bug