import re import urllib import urllib.request url = 'http://www.baidu.com' headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.4620.400 QQBrowser/9.7.13014.400'} resquest = urllib.request.Request(url=url, headers=headers) response = urllib.request.urlopen(resquest).read() url = "http://www.baidu.com" # 请求 request = urllib.request.Request(url) # 爬取结果 response = urllib.request.urlopen(request) data = response.read() # 设置解码方式或者换成uft-8 data = data.decode('gbk') # 打印结果 print(data) # 打印爬取网页的各
python简单伪装和爬网页
最新推荐文章于 2024-08-18 20:33:50 发布
本文展示了一个使用Python的urllib库进行网页爬取的基本示例。通过设置请求头和解码网页内容,成功获取并打印了指定URL的页面源码。
544

被折叠的 条评论
为什么被折叠?



