自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

weixin_44105652的博客

Python代码中文分词

  • 博客(5)
  • 收藏
  • 关注

原创 THULAC包文本预处理,去停用词、分词

Python借助THULAC包对中文txt文档去停用词、分词

2024-12-23 20:06:21 117

原创 THULAC分词时报错的解决方法:python代码

由于用到了分词,需要给已经处理成每行内容只含汉字的txt文本进行分词,所以想到用thulac试一下。环境是anaconda+pycharm+python 3.6.#注意:文件编码的格式,或许也可以通过改变文件编码实现,可能比较麻烦,欢迎尝试,欢迎交楼。解决方法:①在查看文本文档是否都是UTF-8编码格式,

2024-12-23 19:59:57 193

原创 THULAC中文词法分析工具包

THULAC(THU Lexical Analyzer for Chinese)由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包,具有中文分词和词性标注功能。THULAC具有如下几个特点:1.能力强。利用我们集成的目前世界上规模最大的人工分词和词性标注中文语料库(约含5800万字)训练而成,模型标注能力强大。2.准确率高。该工具包在标准数据集Chinese Treebank(CTB5)上分词的F1值可达97.3%,词性标注的F1值可达到92.9%,与该数据集上最好方法效果相当。

2024-12-10 22:11:43 675

原创 Python借助jieba包对中文txt文档去停用词、分词

Python借助jieba包对中文txt文档去停用词、分词`import jieba # 创建停用词listdef stopwordslist(filepath): stopwords = [line.strip() for line in open(filepath, 'r', encoding='utf-8').readlines()] return stopwords # 对句子进行分词def seg_sentence(sentence): sentence_se

2020-08-23 20:32:11 2373 1

原创 python借助jieba包对单独test和txt文档进行中文分词

python借助jieba包对单独test和txt文档进行中文分词一.单独test分词import jiebajieba.cut("大连圣亚在大连")*#输出:<generator object Tokenizer.cut at 0x0000026D05FC2A48>*print([i for i in jieba.cut("大连圣亚在大连")])*#输出:['大连', '圣亚', '在', '大连']*jieba.lcut("大连圣亚在大连")*#输出:['大连', '圣亚',

2020-08-23 20:23:56 3117 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除