爬虫学习-获取页面使用的字符集

最新推荐文章于 2024-09-24 16:23:30 发布

原创最新推荐文章于 2024-09-24 16:23:30 发布 · 358 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫 #字符集

python相关专栏收录该内容

15 篇文章

订阅专栏

本文介绍如何使用Python的requests和chardet库检测网页字符集，以解决爬虫抓取时的乱码问题，确保正确解析网页内容。

前面做爬虫例子的时候打印有时会出现意外的乱码，后来通过查找发现是解码字符集引起的，所以需要实现知道页面使用的字符集才能更好的解码

#encoding=utf-8
#导入需要的包 字符集需要的包是chardet
import requests
import chardet


if __name__=='__main__':
    url = 'http://www.baidu.com'
    #通过get方式打开页面
    response = requests.get(url)
    #获取页面内容
    html = response.content
    #判断页面使用的字符集
    charset = chardet.detect(html)
    #打印输出
    print(charset)