背景:想模拟实验一下文本情感分析,下载完语料,因为语料是一个评论一条,所以需要将所有评论整合到一个文件中,在读取每个文件时,出现了编码的问题,如下
问题:UnicodeDecodeError: 'utf8' codec can't decode byte 0xb1 in position 0: invalid start byte
大概错误意思: unicode解码错误:无法解码成‘utf-8’,在位置0处有非法的开始字节
原始代码:
with open('/home/hadoop

在进行文本情感分析时遇到编码问题,错误为UnicodeDecodeError,原因是Python默认使用UTF-8读取文件,但下载的语料文件并非UTF-8格式。尝试修改文件编码未成功。解决方案包括检查Python的输入输出编码和使用Linux命令`file --mime-encoding filename`查看文件编码。
最低0.47元/天 解锁文章
703

被折叠的 条评论
为什么被折叠?



