该地附近的商家信息如图所示:
现在我要抓取首页的所有商家信息(商铺名、评分等级、配送信息等),如果提示要查看更多商家,请登录。为了测试,我们就可以人为登陆。现在,当我的鼠标滚轮不断向下滑动时,发现商家信息不断增加,但网址没有发生变化,这就是动态页面。按F12,打开开发者工具选项,F5刷新,鼠标不断向下滚动,我们发现控制台的网址在不断增加。一般地,动态页面的网址出现在JS或者XHR选项工具栏,不断滑动滚轮,找到我们所需内容所在的网址,如图所示:
现在我们找到了目标URL,在开发者选项工具中,切换到Headers,就可以直观地看到目标URL,如图所示:
打开此URL就可以找到我们所需的信息,注意这是json格式的数据。进一步,我们找到网址变化的规律,只需改变offset参数即可。
json格式数据解析,类似于字典的操作,用get方法提取所需数据,现在假设我要商家的店铺名,代码如下:
import requests
def search(url):
try:
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x6