UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0xaf in position 34: illegal multibyte sequence
原始读取代码:
with open(file, 'r') as f:
for line in f:
line = line.strip().split("\t")
en.append(["BOS"] + nltk.word_tokenize(line[0].lower

博客讲述了在Windows 10环境下,使用Python读取文件时遇到的GBK编码错误。通过检查文件实际编码为UTF-8,并修改代码以正确指定编码,解决了UnicodeDecodeError。同时介绍了GBK、GB18030、BIG5和UTF-8等编码之间的关系和兼容性。
最低0.47元/天 解锁文章
1091

被折叠的 条评论
为什么被折叠?



