爬虫中文乱码问题

解决CSV文件乱码与BeautifulSoup解析网页

原创已于 2022-05-01 22:51:08 修改 · 829 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#爬虫 #python #开发语言

于 2022-05-01 22:09:16 首次发布

python 专栏收录该内容

28 篇文章

订阅专栏

1、BeautifulSoup

wb_data = requests.get(url, headers=headers)
soup = BeautifulSoup(wb_data.text.encode(wb_data.encoding), 'lxml',
from_encoding='utf-8')

2、csv中文乱码

解决方案

把utf-8改成utf-8-sig就解决了

with open('test.csv','w',encoding='utf-8-sig',newline='')as csvfile:
    writor = csv.writer(csvfile)
    new_list = list(x.items())
    for i in new_list:
        print(i)
        writor.writerow(i)

utf-8和utf-8-sig

原来是Excel 在读取 csv 文件的时候是通过读取文件头上的 BOM 来识别编码的，如果文件头无 BOM 信息，则默认按照 Unicode 编码读取。而csv默认是ANSI.当我们使用 utf-8 编码来生成 csv 文件的时候，并没有生成 BOM 信息，Excel 就会自动按照 Unicode 编码读取，就会出现乱码问题了。

我这可不是乱说的啊，明显是有备而来（附上两者区别）：
1、”utf-8“ 是以字节为编码单元,它的字节顺序在所有系统中都是一样的,没有字节序问题,所以这个不需要BOM,因此用"utf-8"编码方式读取带有BOM的文件时,它会把BOM当做是文件内容来处理，导致出现上述错误

2、“uft-8-sig"中sig全拼为 signature 也就是"带有签名的utf-8”, 多以"utf-8-sig"读取带有BOM的"utf-8文件时"会把BOM单独处理,与文本内容隔离开,这就是我们需要的结果了.