基于python的词频分析

笙芊

已于 2022-03-18 11:52:20 修改

阅读量3.5k

点赞数

CC 4.0 BY-SA版权

分类专栏：笔记文章标签： python 开发语言

于 2022-03-17 23:16:42 首次发布

本文链接：https://blog.youkuaiyun.com/m0_62381636/article/details/123560442

8 篇文章

订阅专栏

本文介绍了如何使用jieba库对从百度获取的文章进行分词处理，包括去除英文标点、中文标点、数字和字母。通过预处理，可以进行后续的词频分析和文本挖掘。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

首先安装jieba扩展库

!pop install jieba

就可以使用jieba进行分词了！

对从百度上截取下来的文章进行词频分析，打开文件

fp=open(r'C:\Users\wang\Desktop\d.txt',encoding='utf-8')

1、windows里面的文件路径用'\',在python中'\'用作转义字符，在字符串前面加r使其不进行转义处理

2、文件名

如果不在同一文件目录下，文件名为文件路径/文件名/文件类型
3、python中文本格式是utf-8编码，如果不加，只要有中文就会报错

如果文本中有标点符号或者空格则先进行删除

删除英文符号

import string
s='     '
for i in string.punctuation://如果出现英文标点符号则删除
    s=s.replace(i,'')//字符串中的替换函数
print(s)

删除中文标点符号

!pop install zhon//首先需要安装zhon资源包
from zhon.hanzi import punctuation
for i in pinctuation:
    s=s.replace(i,'')//注意是''不是' '
print(s)

删除数字和英文字母使用正则表达式

import re
a=re.sub("[A-Za-z0-9\：\·\—\，\。\“ \”]",'',s]//将出现的英文字母数字标点替换为''
s1=s.split()//将s变成列表
a=''.join(s1)//将空格去掉

使用jieba进行分词

b=jieba.cut(a)
d=list(b)//注意对文本jieba分词后数据结构转list

删除单个文字

d=c.copy()//必须进行复制，为避免迭代时迭代对象本身
for i in d://不然不能遍历完c中的所有元素
    if len(i)==1:
        c.remove(i)