<pre name="code" class="python"> wordList = textParse(open('email/ham/%d.txt' % i).read())在python3中读取文件时报错:UnicodeDecodeError: 'gbk' codec can't decode byte 0xae in position 199: illegal multibyte sequence
网上各种资料大都显示是文件编码问题,所以就把utf-8,gbk,asicc等各种编码方式都试了一遍,还是没有解决问题。
然后仔细看报错信息,根据decode byte 0xae in position 199看出来好像是文件中某个字节不能解码,问题出来了,文件中包含了非法字符。
打开文件一看,第二行中夹杂着“�”字符,这个字符本来是个普通问好“?”不知道什么原因放入eclipse后就变了,删除之后,一切就正常啦。
本文解决了Python在读取文件时出现的UnicodeDecodeError问题,通过排查发现是由于文件中含有特殊字符导致,最终通过手动删除该字符解决了问题。
19万+





