 Fearless-优快云博客

原创 THULAC包文本预处理，去停用词、分词

Python借助THULAC包对中文txt文档去停用词、分词

2024-12-23 20:06:21 117

原创 THULAC分词时报错的解决方法:python代码

由于用到了分词，需要给已经处理成每行内容只含汉字的txt文本进行分词，所以想到用thulac试一下。环境是anaconda+pycharm+python 3.6.#注意：文件编码的格式，或许也可以通过改变文件编码实现，可能比较麻烦，欢迎尝试，欢迎交楼。解决方法：①在查看文本文档是否都是UTF-8编码格式，

2024-12-23 19:59:57 193

THULAC（THU Lexical Analyzer for Chinese）由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包，具有中文分词和词性标注功能。THULAC具有如下几个特点：1.能力强。利用我们集成的目前世界上规模最大的人工分词和词性标注中文语料库（约含5800万字）训练而成，模型标注能力强大。2.准确率高。该工具包在标准数据集Chinese Treebank（CTB5）上分词的F1值可达97.3％，词性标注的F1值可达到92.9％，与该数据集上最好方法效果相当。

2024-12-10 22:11:43 675

原创 Python借助jieba包对中文txt文档去停用词、分词

Python借助jieba包对中文txt文档去停用词、分词`import jieba # 创建停用词listdef stopwordslist(filepath): stopwords = [line.strip() for line in open(filepath, 'r', encoding='utf-8').readlines()] return stopwords # 对句子进行分词def seg_sentence(sentence): sentence_se

2020-08-23 20:32:11 2373 1

原创 python借助jieba包对单独test和txt文档进行中文分词

python借助jieba包对单独test和txt文档进行中文分词一.单独test分词import jiebajieba.cut("大连圣亚在大连")*#输出：<generator object Tokenizer.cut at 0x0000026D05FC2A48>*print([i for i in jieba.cut("大连圣亚在大连")])*#输出：['大连', '圣亚', '在', '大连']*jieba.lcut("大连圣亚在大连")*#输出：['大连', '圣亚',

2020-08-23 20:23:56 3117 2

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

weixin_44105652的博客

原创 THULAC包文本预处理，去停用词、分词

原创 THULAC分词时报错的解决方法:python代码

原创 THULAC中文词法分析工具包

原创 Python借助jieba包对中文txt文档去停用词、分词

原创 python借助jieba包对单独test和txt文档进行中文分词

空空如也

空空如也