python写爬虫时如何查看网页编码格式decode

fuxing2018

于 2019-08-05 11:19:46 发布

阅读量2k

点赞数 2

CC 4.0 BY-SA版权

分类专栏： python 爬虫编码格式

本文链接：https://blog.youkuaiyun.com/qq_23182345/article/details/98480482

python 同时被 3 个专栏收录

13 篇文章

订阅专栏

爬虫

2 篇文章

订阅专栏

编码格式

2 篇文章

订阅专栏

本文介绍爬虫程序中确定目标网页编码格式的方法，包括使用Python的urllib库读取网页并解码，以及通过开发者工具查看网页编码。掌握这些技巧对于高效抓取网页数据至关重要。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

写爬虫程序第一步要解决掉额问题就是确定目标网页的编码格式。

那么，如何获取网站的编码格式呢？

def getList(url):
    html = urllib.request.urlopen(url).read() # 得到html
    return  html.decode('UTF-8') # 解码html

html = getList("https://price.pcauto.com.cn") # 获得源码

请按照以下2个步骤获取：

1. 请打开目标网站，按F12进入网页卡发者工具；

2. 切换选项卡console，键盘输入"document.charset" ，即可看到该网页的编码格式"UTF-8"。