搬运自 公众号 乐学Fintech
Q:
导入txt时错误(UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0x9c in position 2: illegal multibyte sequence),把逗号换掉才能成功,请问老师这种问题怎么解决?
A:
您可以试试如下解决方案:
(1)在打开文本时候,可以指明打开方式:
file = open(path, encoding=‘gbk’)
(2)如果上一步还不能解决,可能是文本中出现的一些特殊符号超出了gbk的编码范围,可以选择编码范围更广的‘gb18030’,如:
file = open(path, encoding=‘gb18030’)
(3)如果上一步还不能解决,说明文中出现了连‘gb18030’也无法编码的字符,可以使用‘ignore’属性忽略非法字符,如:
file = open(path, encoding=‘gb18030’, errors=‘ignore’)
或者
file=open(path).read().decode(‘gb18030’,’ignore’)