1、open(“filename”,”rb”).read()与open(“filename”,”r”).read()的区别,
前者读取二进制码文件,后者读ASCII码文件,文本文件一般以ASCII码编写。
2、split函数
split()默认的话 包含所有空字符,“ ” \n \t等等
split(” “)识别 “ ” 没有的话默认在一块
file=open("name.txt","r")
lines=[]
for line in file:
line=line.split()
lines.append(line)
print (lines)
3、
#提取英文文章的单词
#txt是一个读取了整个文本的字符串
txt=open("hamlet.txt","r").read()
#将字母小写
txt=txt.lower()
#将各种标点符号替换成空格
for ch in txt:
if ch == '!"#$%&()

本文介绍了使用Python进行文本处理,通过分析《哈姆雷特》文本,展示了如何读取文件、处理文本数据以及进行词频统计的方法,包括二进制与文本模式的区别、split函数的应用等。
最低0.47元/天 解锁文章
2322

被折叠的 条评论
为什么被折叠?



