jeiba是优秀的中文分词第三分库 jieba分词有三种模式:精确模式,全模式,搜索引擎模式 精确模式:将文本精确切分开,不存在冗余单词 全模式:把文本多有可能的词语都扫描出来,有冗余 搜索引擎模式:在精确模式基础上,对长词进行再次切分 jieba.lcut(s):精确模式,返回一个列表类型的分词结果 #重点记忆 >>>jieba,lcut("中国是一个伟大的国家") ['中国','是','一个','伟大','的','国家'] jieba.lcut(s,cut_all = True):全模式,返回一个列表类型分词结果,存在冗余 >>>jieba.lcut("中国是一个伟大的国家",cut_all = True) ['中国','国是','一个','伟大','的','国家'] jieba.lcut_for_search(s):搜索引擎模式,返回一个列表类型的分词结果,存在冗余 >>>jieba.lcut_for_search("中华人民共和国是伟大的") ['中华','华人','人民','共和','共和国','中华人民共和国','是','伟大','的'] jieba.add_word(w):向分词词典增加新词w >>>jieba.add_word("蟒蛇语言")
python jieba库
最新推荐文章于 2025-04-09 19:15:13 发布