本周在重构数据集的过程当中发现数据集存在无法读取的乱码的问题
仔细检查后,发现是gbk码和UTF-8的冲突问题,在爬取新的csv数据时,应该将文件保存为UTF-8编码从而支持中文。
对于现有数据集,我们通过codecs库进行重构修改
import codecs
file_path = '原始文件.csv'
with codecs.open(file_path, 'r', encoding='gbk') as f:
content = f.read()
with codecs.open(file_path, 'w', encoding='utf-8') as f:
f.write(content)
print("原文件编码已修改为 UTF-8。")
重构后的数据集能够正常读取,系统功能恢复正常