第一步:登录百度图片官网,截图如下所示:
注意点一:开头必须是https(如上图所示,出现锁的标志),不能是http,否则后期下载图片文件会出错
第二步:输入关键字,页面加载出来之后,按F12进入开发者模式,由于百度图片ajax动态加载,点击network选项卡,重新刷新页面,查看XHR数据,截图如下所示:
第三步:分析多个XHR,得出规律,每一个页面所请求的url所携带的参数只有pn,rn,gsm(不用管)是不一样的,其中pn代表当前是第几页,rn代表一页有几条数据,截图如下所示:
第四步:上一步已经分析完url的规律,接下来我们来寻找图片的藏身之处,点开任意一个XHR,从0到29,一共三十条数据,图片的信息存储在每一个字典中,其中’thumbURL’中存储的就是地址,截图如下所示:
第五步:上一步已经分析完图片储存的地方,接下来我们来编写代码,代码如下所示:
import requests
import os
class Image():
url = 'https://image.baidu.com/search/acjson'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.9 Safari/537.36'
}
varlist = []
dir = './images'
params = {
}
def __init__(self):
global page_num,keywords