1、直接使用url爬取某度首页
在01:urllib的基本使用中我们利用urllib.request.urlopen()方法爬取了某度的首页,当时强调了输入的url必须是 http:www.baidu.com/,而不能是https:www.baidu.coms/,这次我们将url替换为https:www.baidu.coms/看看urllib.request.urlopen()还好不好使!
import urllib.request
url = 'https://www.baidu.com/'
response = urllib.request.urlopen(url)
content = response.read().decode('utf-8')
print(content)
运行看看结果:
很明显我们没有拿到想要的网页,甚至连"百度一下"都找不着!说明这样写是有问题的。
2、问题分析
在输出结果中,我们可以看到<noscript>.....<noscript>,这行标签说明被请求的服务器发现我们并不是通过浏览器去请求网页的,因为没有发现javaScript的解释器,我们爬虫的身份居然暴露了! 这是由于https协议的关系,https相当于http+SSL,这是一种比http协议更为安全的协议,会对网站的请求者进行验证。
那怎么让对方认为我们就是通过浏览器发出请求的呢?
在某度首页按F12打开开发者模式,在请求头的信息里面我们可以看到其中一个请求头User-Agent,这个请求头携带了咱们的系统信息和浏览器信息,我们在向请求服务器的时候带上这个请求头就可以骗过对方服务器!
那怎么带上这个请求头呢?
3、请求对象的定制
我们可以借助一个新的API:urllib.request.Request(),这个api可以帮助我们带上请求头,目前它只需包含两个参数:
①:url:要访问的url地址;
②:headers:字典,包含请求头;
下面我们就来定制一下请求:
url = 'https://www.baidu.com/'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36'
}
#请求对象的定制
request = urllib.request.Request(url=url,headers=headers)
定制的请求头怎么用呢?只需要将urllib.request.urlopen(url)中的url替换为咱们定制的请求就行啦!
response = urllib.request.urlopen(request)
打印结果:
顺利拿到返回结果!
4、完整代码
# written by cy on 2022-01-08 21:09
import urllib.request
url = 'https://www.baidu.com/'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36'
}
#请求对象的定制
request = urllib.request.Request(url=url,headers=headers)
response = urllib.request.urlopen(request)
content = response.read().decode('utf-8')
print(content)
下一次就和大家分享如何发送get请求噢!觉得有用的点个👍再走 蟹蟹大家~