UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd2 in position 0: invalid continuation byte

本文介绍了解决使用Pandas读取中文CSV文件时遇到的编码错误的方法。通过调整encoding参数为'gb18030',成功解决了UnicodeDecodeError异常,并实现了对特定品牌评论数据的有效提取。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

使用Pandas导入CSV文件的时候出错,encoding = ‘UTF-8’

#-*- coding: utf-8 -*-
import pandas as pd

inputfile = 'data/huizong.csv' #评论汇总文件
outputfile = 'data/meidi_jd1.txt' #评论提取后保存路径
data = pd.read_csv(inputfile, encoding = 'utf-8')
data = data[[u'评论']][data[u'品牌'] == u'美的']
data.to_csv(outputfile, index = False, header = False, encoding = 'utf-8')



UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd2 in position 0: invalid continuation byte

修改 encoding = 'gb18030' 后导入正常,这个问题在使用Python导入中文内容经常出现,很多教程是在Python2.7上运行正常,但是实际用Python3跑的时候可能会出错。

#-*- coding: utf-8 -*-
import pandas as pd

inputfile = 'data/huizong.csv' #评论汇总文件
outputfile = 'data/meidi_jd1.txt' #评论提取后保存路径
data = pd.read_csv(inputfile, encoding = 'gb18030')
data = data[[u'评论']][data[u'品牌'] == u'美的']
data.to_csv(outputfile, index = False, header = False, encoding = 'utf-8')

 

转载于:https://www.cnblogs.com/lukes1973/p/9049580.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值