NLTK中文分句自定义词典 Mr. 不分词

最新推荐文章于 2024-07-11 08:30:12 发布

原创最新推荐文章于 2024-07-11 08:30:12 发布 · 1.3k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#mr #自然语言处理 #人工智能 #nltk

自然语言处理专栏收录该内容

22 篇文章

订阅专栏

本文介绍了如何使用NLTK库在英文文本中进行句子切割，特别强调了自定义词典对分词效果的影响。通过实例展示，注意到专有名词如'Mr.Smith'未被正确拆分，探讨了如何改进参数设置以提高准确性。

因为我这里已经下载过NLTK了，所以就不提供安装教程了，搜一搜都能找到。

这里就直接演示对英文句子切分：

from nltk.tokenize.punkt import PunktSentenceTokenizer, PunktParameters


def cut_sentences_en(content):
    punkt_param = PunktParameters()
    abbreviation = ['i.e.', 'dr', 'vs', 'mr', 'mrs', 'prof', 'inc']  # 自定义的词典
    punkt_param.abbrev_types = set(abbreviation)
    tokenizer = PunktSentenceTokenizer(punkt_param)
    sentences = tokenizer.tokenize(content)
    return sentences

测试：