简单的结巴分词与词频统计

超级无敌的小咩～

于 2018-06-10 16:31:54 发布

阅读量3.5k

点赞数 1

CC 4.0 BY-SA版权

分类专栏： python基础文章标签： python

本文链接：https://blog.youkuaiyun.com/zhangmary/article/details/80642244

这段Python代码实现了对文本的预处理，包括去除特殊字符、使用jieba进行分词，并统计词频。最后将结果写入文件并打印前五个高频词。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

#!/usr/bin/env python
# -*- coding: utf-8 -*-
import re
import sys
import jieba
import json
from collections import Counter
reload(sys)
sys.setdefaultencoding("utf-8")
filename = "rowss.txt"
f1 = open("row2.txt", "w+")
with open(filename) as f:
    mytext = f.read()
    mytext = mytext.decode("utf-8")
    mytext = re.sub("[\s+\.\!\/_,$%^*(+\"\']+|[+——！，。？、|~@#￥%……&*（）]+".decode("utf-8"), "".decode("utf8"), mytext)
    mytext = " ".join(jieba.cut(mytext))
    f1.write(mytext)
word_lst = []
word_dict = {}
with open("row2.txt") as f2, open("row4.txt", "w") as f3:
     for word in f2:
        word_lst.append(word.split(' '))
        for item in word_lst:
            for item2 in item:
                if item2 not in word_dict:

最低0.47元/天解锁文章