首先安装jieba扩展库
!pop install jieba
就可以使用jieba进行分词了!
对从百度上截取下来的文章进行词频分析,打开文件
fp=open(r'C:\Users\wang\Desktop\d.txt',encoding='utf-8')
1、windows里面的文件路径用'\',在python中'\'用作转义字符,在字符串前面加r使其不进行转义处理
2、文件名
如果不在同一文件目录下,文件名为文件路径/文件名/文件类型
3、python中文本格式是utf-8编码,如果不加,只要有中文就会报错
如果文本中有标点符号或者空格则先进行删除
删除英文符号
import string
s=' '
for i in string.punctuation://如果出现英文标点符号则删除
s=s.replace(i,'')//字符串中的替换函数
print(s)
删除中文标点符号
!pop install zhon//首先需要安装zhon资源包
from zhon.hanzi import punctuation
for i in pinctuation:
s=s.replace(i,'')//注意是''不是' '
print(s)
删除数字和英文字母 使用正则表达式
import re
a=re.sub("[A-Za-z0-9\:\·\—\,\。\“ \”]",'',s]//将出现的英文字母数字标点替换为''
s1=s.split()//将s变成列表
a=''.join(s1)//将空格去掉
使用jieba进行分词
b=jieba.cut(a)
d=list(b)//注意对文本jieba分词后数据结构转list
删除单个文字
d=c.copy()//必须进行复制,为避免迭代时迭代对象本身
for i in d://不然不能遍历完c中的所有元素
if len(i)==1:
c.remove(i)