基于python的词频分析

首先安装jieba扩展库

!pop install jieba

就可以使用jieba进行分词了!

对从百度上截取下来的文章进行词频分析,打开文件

fp=open(r'C:\Users\wang\Desktop\d.txt',encoding='utf-8')

1、windows里面的文件路径用'\',在python中'\'用作转义字符,在字符串前面加r使其不进行转义处理

2、文件名

如果不在同一文件目录下,文件名为文件路径/文件名/文件类型
3、python中文本格式是utf-8编码,如果不加,只要有中文就会报错

如果文本中有标点符号或者空格则先进行删除

删除英文符号

import string
s='     '
for i in string.punctuation://如果出现英文标点符号则删除
    s=s.replace(i,'')//字符串中的替换函数
print(s)
    

删除中文标点符号

!pop install zhon//首先需要安装zhon资源包
from zhon.hanzi import punctuation
for i in pinctuation:
    s=s.replace(i,'')//注意是''不是' '
print(s)
    

删除数字和英文字母 使用正则表达式

import re
a=re.sub("[A-Za-z0-9\:\·\—\,\。\“ \”]",'',s]//将出现的英文字母数字标点替换为''
s1=s.split()//将s变成列表
a=''.join(s1)//将空格去掉

使用jieba进行分词

b=jieba.cut(a)
d=list(b)//注意对文本jieba分词后数据结构转list

 删除单个文字

d=c.copy()//必须进行复制,为避免迭代时迭代对象本身
for i in d://不然不能遍历完c中的所有元素
    if len(i)==1:
        c.remove(i)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值