基于python的中文词频分析

最新推荐文章于 2025-11-07 09:05:27 发布

原创

最新推荐文章于 2025-11-07 09:05:27 发布 · 3.3w 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#python #正则表达式 #lambda #聊天 #import #算法

本文受到某文章启发，使用Python进行中文词频分析，主要针对聊天记录进行处理。通过正则表达式匹配中文字符，然后对字典按值排序，以揭示说话习惯。虽然没有涉及复杂的语义分析，但能快速统计大量文本。在50万字的文件中，统计过程不到一秒完成。分析结果显示了一些高频和低频的单字以及多字组合。

受http://yixuan.cos.name/cn/2011/03/text-mining-of-song-poems/这篇文章的启发，觉得PYTHON来做文字处理分析应该不错，可以来做个词频分析，分析聊天记录可以看出每个人的说话习惯

用的是暴力方法不用语义分析直接列出所有出现的字词

做下来觉得难点就在中文编码这部分 python下中文涉及的编码转化确实要琢磨一番

首先数据文件要存为utf-8格式

在python显示中文的关键代码：

import sys
reload(sys) 
sys.setdefaultencoding('utf8')
txt.encode('gb18030')

txt为中文字符串

搜索中文，用正则表达式匹配：

r = re.compile('[\x80-\xff]+')
m = r.findall(txt)

字典排序，按照value排序，代码很精简：

dict=sorted(dict.items(), key=lambda d:d[1])

代码：

#coding=utf-8
#Author: http://blog.youkuaiyun.com/boksic
import sys,re

reload(sys) 
sys.setdefaultencoding('utf8')
txt = open('blog.youkuaiyun.com.boksic.txt','r').read()
wfile=open('result.txt','w')


r = re.compile('[\x80-\xff]+')
m = r.

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

boksic

关注关注

2
点赞
踩
10

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

使用python进行“中文词频分析”学习笔记

htgt_tuntuntun的博客

05-31

3万+

首先什么是“词频分析”？词频分析，就是对某一或某些给定的词语在某文件中出现的次数进行统计分析。那么它能做哪些事情？比如：分析你最喜欢的作者的表达习惯是怎样的？判断一首诗是李白写的还是杜甫写的？分析红楼梦前八十回和后四十回到底是不是一个人写的？某小说的人物出场顺序是怎样的？领导演讲稿中强调最多的是什么？ ...

学习python的一个小结：中文词频统计分析

u011174119的博客

06-06

1834

python学了一段时间，试着写个小程序检验，巩固一下。准备使用pip注意事项必须以管理员身份运行cmd； pip命令大小写敏感；最好指定国内源镜像加快下载速度安装jieba pip install -i https://pypi.tuna.tsinghua.edu.cn/simple some-package 参考清华大学开源软件镜像站读取文件，并使用jieba分词 with open("seg_test.txt", 'r', encoding='UTF-8') as f: n

1 条评论您还未登录，请先登录后发表或查看评论

Python|统计每个词出现的次数

最新发布

Datafox（数据狐199-7010-8018）

11-07

265

本文介绍了Python中统计单词频率的多种方法：1）使用字典手动统计；2）利用collections.Counter类自动计数；3）结合正则表达式预处理文本。提供了一个完整程序实现，包含从文件读取、智能分词、词频统计和排序输出功能，支持直接输入文本或读取文件两种方式，具有错误处理机制。该方案适用于各类英文文本分析任务，能高效准确地输出单词频率统计结果。

基于python的三国演义词频分析

03-08

基于python的《三国演义》的词频分析，中文、英文分析均有。

基于python的词频分析

m0_62381636的博客

03-17

3583

首先安装jieba扩展库 !pop install jieba 就可以使用jieba进行分词了！对从百度上截取下来的文章进行词频分析，打开文件 fp=open(r'C:\Users\wang\Desktop\d.txt',encoding='utf-8') 1、windows里面的文件路径用'\',在python中'\'用作转义字符，在字符串前面加r使其不进行转义处理 2、文件名如果不在同一文件目录下，文件名为文件路径/文件名/文件类型 3、python中文本格式是utf-8编码，

基于Python微博舆情分析系统的设计与实现+毕业论文

07-31

《基于Python微博舆情分析系统的设计与实现》在当今信息化社会，社交媒体平台如微博成为了公众表达意见、分享信息的重要渠道，而舆情分析则成为企业和政府理解公众态度、预测社会趋势的关键工具。本毕业设计旨在...

用python实现词频分析与可视化

qianqianaao的博客

04-25

1117

目标: 通过统计文本中各个词汇的出现频率，找出文本中的关键词，帮助我们了解文本的核心内容。步骤: 统计词频:计算每个词汇在文本中的出现次数。常用方法有TF(词频)和TF-IDF(词频-逆文档频率)。 TF:词汇在文档中的出现频率。 TF-IDF:不仅统计词频，还会考虑词汇在其他文档中的出现情况，减少常见词汇的影响。可视化:使用词云图或柱状图可视化高频词，帮助直观展示文本中的关键词。词云图:显示频率较高的词汇，词语大小与频率成正比。

基于python的上市公司年报分析（pdf转txt，停用词过滤，关键词分析，文本分析）

04-09

在这个基于Python的上市公司年报分析项目中，我们主要探讨了如何利用人工智能技术来处理和解析PDF格式的年报，然后进行文本预处理、停用词过滤、关键词提取以及文本分析。以下是对这些步骤的详细阐述：首先，PDF转...

Q.rar_python统计词频_分词_基于机器学习_词频 _词频统计

07-15

本教程主要涉及使用Python语言进行中文文本的分词和词频统计，并结合机器学习的方法。让我们详细探讨这些知识点。首先，**Python统计词频**是数据分析的基础步骤之一。Python拥有丰富的库支持这种操作，如`...

利用python做中文词频分析

热门推荐

博客

03-27

2万+

利用python做中文词频分析摘要：利用python做中文词频分析，分析文本中词频出现的次数，文本可以保存在TXT或者CSV文件中，用到csv库和正则表达式。需要有文本处理和正则表达式的基础，不会请先学习这方面内容。导入库： # coding=utf-8 编码形式 import sys #字符串处理方式 import re

Python中文文本分析(期末大作业).rar

08-05

Python读取小说文本，绘制词云图，主要人物出场次序，社交网络关系图，章回字数，有报告、详细说明和代码注释，有可执行文件.exe

用python实现词频分析+词云.py

01-26

代码的详解在我的博客中有所介绍，或者也可以看我的知乎文章：https://zhuanlan.zhihu.com/p/103080917。这个是.py文件，可以直接进行调试。我是在python3.7版本下进行调试的，不同版本的python语法可能会略有不同。调试前需要安装一些库，在.py文件的开头有所说明。调试的一些所需文件、部分说明，可以在这个链接中进行下载：https://pan.baidu.com/s/19oFMA0Aa2kAJRJMM8ZO6Vg；提取码：lf38。有疑问可以评论说哈~

Python词频分析

知智

07-24

1万+

在日常工作或者生活中，有时候会遇到词频分析的场景。如果是要进行词频分析，那么首先需要对句子进行分词，将句子中的单词进行切割并按照词性进行归类。在Python中有个第三方库叫jieba(结巴)，可以对文章或者语句进行分词。不得不佩服这个库的作者，真是个取名鬼才：) ...

Python统计中文词频的四种方法

henanlion的博客

08-25

1万+

统计中文词频是Python考试中常见的操作，由于考察内容较多，因此比较麻烦，那么有没有好的方法来实现呢？今天，我们总结了四种常见的中文词频统计方法，并列出代码，供大家学习参考。中文词频统计主要是通过open()打开文本，然后read()方法读取后，采用结巴分词(jieba)模块进行分词，接着用推表推导式、Counter或者是字典的方法来统计词频，也可以采用NLTK的方法，最后格式化打印出来。默认系统里已经安装好了jieba这个模块。

python中文文本分析_python--文本分析

weixin_39958366的博客

11-21

4664

一. 导读文本分析主要用来分词分析，情感分析以及主题分析,参考知乎用户的文章，他从方法代码上讲解了中英文分词(wordcloud,jieba)，中英文情感分析(textblob,snownlp)，以及主题分析(LDA).应某位同学的要求，要处理文档里的分词，主题的统计功能，故本人做了个通用的小脚本,功能如下:1. 词频取词，并生成气泡图2. 重要性取词，并生成气泡图3. 主题取词, 并导出htm...

使用Python实现一个简单实用的文本词频统计分析工具

专注于与编程相关的知识内容分享

06-01

712

本文介绍了如何使用Python构建一个简单实用的文本词频统计工具。通过jieba库处理中文分词、collections.Counter统计词频，并结合正则表达式进行文本清洗，最终实现高频词展示和词云可视化功能。文章详细说明了中英文文本处理的差异，提供了完整代码示例，并探讨了舆情分析、学术研究等应用场景。该工具核心流程包括文本清洗、分词处理、词频统计和结果展示四个步骤，可扩展支持多线程、情感分析等进阶功能。

python基础（1）中文文本分析

m0_46497494的博客

10-15

2843

作为初学者，把学的内容打下来供以后查阅

python中文文本分析_基于CNN的中文文本分类算法（可应用于垃圾邮件过滤、情感分析等场景）...

weixin_39939303的博客

11-24

456

基于cnn的中文文本分类算法简介参考IMPLEMENTING A CNN FOR TEXT CLASSIFICATION IN TENSORFLOW实现的一个简单的卷积神经网络，用于中文文本分类任务（此项目使用的数据集是中文垃圾邮件识别任务的数据集），数据集下载地址：百度网盘区别原博客实现的cnn用于英文文本分类，没有使用word2vec来获取单词的向量表达，而是在网络中添加了embedding层...

基于python的词频云和文本分析

09-29

Python实现词频云和文本分析涉及多个步骤，包括文本预处理、分词、统计词频和生成词云等，以下是具体的方法及示例： ### 文本预处理与分词 Python有很多中文分词库，常见的有jieba、THULAC、pkuseg等[^4]。以jieba库为例，可进行如下分词操作： ```python import jieba content = "这是一段用于测试的中文文本。" word_list = jieba.cut(content) new_text = " ".join(word_list) print(new_text) ``` ### 统计词频使用`collections`库中的`Counter`类统计词频： ```python from collections import Counter con_words = [x for x in jieba.cut(new_text) if len(x) > 2] frequencies = Counter(con_words).most_common() frequencies = dict(frequencies) print(frequencies) ``` ### 生成词云使用`wordcloud`库根据词频生成词云，以下是示例代码： ```python from wordcloud import WordCloud import matplotlib.pyplot as plt # 简单形式矩形词云 def simpleWC1(sep='', back='black', freDictpath='data_fre.json', savepath='res.png'): try: with open(freDictpath) as f: data = f.readlines() data_list = [one.strip().split(sep) for one in data if one] fre_dict = {} for one_list in data_list: fre_dict[one_list[0]] = int(one_list[1]) except: fre_dict = freDictpath wc = WordCloud(font_path='font/simhei.ttf', # 设置字体 background_color=back, # 背景颜色 max_words=1300, # 词云显示的最大词数 max_font_size=120, # 字体最大值 margin=3, # 词云图边距 width=1800, # 词云图宽度 height=800, # 词云图高度 random_state=42) wc.generate_from_frequencies(fre_dict) # 从词频字典生成词云 plt.figure() plt.imshow(wc) plt.axis("off") wc.to_file(savepath) # 结合图片形状的词云 from scipy.misc import imread cut_text = open('E://pythonnotebook//text.txt', 'r').read() color_mask = imread('E://pythonnotebook//cloud.jpg') # 设置背景图 cloud = WordCloud( font_path='simfang.ttf', background_color='white', mask=color_mask, max_words=1000, max_font_size=100 ) word_cloud = cloud.generate(cut_text) # 保存词云图片 word_cloud.to_file('word_cloud.jpg') plt.imshow(word_cloud) plt.axis('off') plt.show() ``` ### 完整示例结合以上步骤，完整代码如下： ```python import jieba from PIL import Image from wordcloud import WordCloud, STOPWORDS from scipy.misc import imread from collections import Counter import matplotlib.pyplot as plt content = open("./files/Text.txt", encoding="utf-8") word_list = [" ".join(jieba.cut(sentence=sentence)) for sentence in list(content)] new_text = " ".join(word_list) con_words = [x for x in jieba.cut(new_text) if len(x) > 2] frequencies = Counter(con_words).most_common() frequencies = dict(frequencies) pac_mask = imread("./files/1.png") wordcloud = WordCloud(font_path="simhei.ttf", background_color="white", max_words=2000, mask=pac_mask).fit_words(frequencies) plt.imshow(wordcloud) plt.axis("off") plt.show() wordcloud.to_file("./files/词频生成词云.png") ```