1.encode与decode:
unicode经过encode -> utf-8,反过来为decode。
爬虫读取网页内容和pandas读取csv时,会把读取到的文字内容转成unicode,当我们需要把这些文字内容写入到新的文件时,需要设置该文件的编码(该编码应该与网页或原来的编码相同,以便带来编码的问题),即做一个encode的过程。
2.读取时文件的编码要与写入文件时编码相同。
即读取csv文件时,文件的编码为utf-8,读取到的内容写入到新的csv时,应该把新csv的编码也设置为utf-8,而不能设为gbk.
本文深入解析了Unicode与UTF-8之间的编码转换原理,强调了在爬虫读取网页及pandas处理CSV时,正确设置文件编码的重要性,确保数据读取与写入的一致性。
8万+

被折叠的 条评论
为什么被折叠?



