- 博客(5)
- 收藏
- 关注
原创 THULAC分词时报错的解决方法:python代码
由于用到了分词,需要给已经处理成每行内容只含汉字的txt文本进行分词,所以想到用thulac试一下。环境是anaconda+pycharm+python 3.6.#注意:文件编码的格式,或许也可以通过改变文件编码实现,可能比较麻烦,欢迎尝试,欢迎交楼。解决方法:①在查看文本文档是否都是UTF-8编码格式,
2024-12-23 19:59:57
193
原创 THULAC中文词法分析工具包
THULAC(THU Lexical Analyzer for Chinese)由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包,具有中文分词和词性标注功能。THULAC具有如下几个特点:1.能力强。利用我们集成的目前世界上规模最大的人工分词和词性标注中文语料库(约含5800万字)训练而成,模型标注能力强大。2.准确率高。该工具包在标准数据集Chinese Treebank(CTB5)上分词的F1值可达97.3%,词性标注的F1值可达到92.9%,与该数据集上最好方法效果相当。
2024-12-10 22:11:43
675
原创 Python借助jieba包对中文txt文档去停用词、分词
Python借助jieba包对中文txt文档去停用词、分词`import jieba # 创建停用词listdef stopwordslist(filepath): stopwords = [line.strip() for line in open(filepath, 'r', encoding='utf-8').readlines()] return stopwords # 对句子进行分词def seg_sentence(sentence): sentence_se
2020-08-23 20:32:11
2373
1
原创 python借助jieba包对单独test和txt文档进行中文分词
python借助jieba包对单独test和txt文档进行中文分词一.单独test分词import jiebajieba.cut("大连圣亚在大连")*#输出:<generator object Tokenizer.cut at 0x0000026D05FC2A48>*print([i for i in jieba.cut("大连圣亚在大连")])*#输出:['大连', '圣亚', '在', '大连']*jieba.lcut("大连圣亚在大连")*#输出:['大连', '圣亚',
2020-08-23 20:23:56
3117
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人