open(file, mode,encoding)
if __name__ == '__main__':
docList=[]; classList=[]
for i in range(1,26):
#遍历25个txt文件
#读取每个垃圾邮件,并字符串转化成字符串列表
wordList=textParse(open('email/spam/%d.txt' % i, 'r').read())
docList.append(wordList)
#标记垃圾邮件,1表示垃圾邮件
classList.append(1)
print(docList)

正确的是在open里面加个encoding参数,表示要打开文件的编码格式
因为读取的文件编码格式是windows-1252
wordList=textParse(open('email/spam/%d.txt' % i, 'r',encoding='windows-1252').read())
本文介绍如何在读取Windows-1252编码的垃圾邮件时,正确使用'encoding'参数并解析文本。通过实例展示了如何将25个txt文件中的垃圾邮件转换为词列表,并标记为1。
1万+

被折叠的 条评论
为什么被折叠?



