最近刚接触爬虫,爬虫很好玩,但是,编码超烦人!!!
随便爬个东西,想打印在命令行,就会发现以下问题:
UnicodeEncodeError: 'gbk' codec can't encode character '\xa0' in position 10: illegal multibyte sequence
最终,我选择了使用 jupyter notebook 来日常测试代码,打印什么字符都没问题了,但是在 写入文件时 又会遇到以上的问题。
在我的不懈努力下,终于找到了解决方法:
使用 codecs 模块
具体使用如下 :
import codecs
f = codecs.open('test.txt', 'w', 'utf-8') # test.txt 也可以换成 test.csv
然后再写入的时候就不会发生错误了。
还有更多的方法,目前还没有都试过,可以参考博客:Python2向文件写入Unicode字符
爬虫编码问题解决方案
本文介绍了在使用Python进行网络爬虫开发过程中遇到的编码问题,特别是在打印和写入文件时出现的UnicodeEncodeError异常。通过使用codecs模块,可以有效地解决这些问题,确保字符的正确显示和存储。
4万+

被折叠的 条评论
为什么被折叠?



