Python 爬虫学习3

最新推荐文章于 2024-06-30 11:55:03 发布

竞biubiubiu

最新推荐文章于 2024-06-30 11:55:03 发布

阅读量420

点赞数

CC 4.0 BY-SA版权

分类专栏： Python 爬虫

本文链接：https://blog.youkuaiyun.com/weixin_36650342/article/details/60466940

Python 爬虫专栏收录该内容

8 篇文章

订阅专栏

本文介绍了一种使用Python爬取异步加载网站图片的方法，通过分析网站动态加载过程，提取图片链接并保存到本地指定文件夹。具体实现包括获取页面源码、解析HTML、抓取图片链接等步骤。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

任务：异步数据、爬取图片放置本地文件夹中

动态数据：Network-XHR-Response（链接、图片链接），在Request中寻找URL

异步加载网站：新浪微博评论、豆瓣电影

注意：要知道每一次加载的元素个数（这个网站是12个）、本地文件夹路径、文件夹权限

动态网站的参数可以在Network中查到！

from bs4 import BeautifulSoup
import requests, time, urllib.request
url = 'https://knewone.com/discover?page='

data = {}
# folder_path = (r'C:\Users\Jing\Desktop\a4')     #创建文件夹
folder_path = ('D:\\data\\imgs\\')     #创建文件夹

def get_gage(url, data=None):   #获取每一个产品的信息

    wb_data = requests.get(url)
    soup = BeautifulSoup(wb_data.text, 'lxml')
    imgs = soup.select('a.cover-inner > img')
    titles = soup.select('section.content > h4.title > a')
    links = soup.select('section.content > h4 > a')
    if data==None:
        for img, title, link in zip(imgs, titles, links):
            data = {
                'img': img.get('src'),
                'title': title.get('title'),
                'link': link.get('href')
            }
            print(data)
            item = data['img']
            print(item)
            urllib.request.urlretrieve(item, folder_path + item[-21:-16])       #截取图片链接字符串作为文件后缀

def get_more_gages(start,end):  #控制爬取页数
    for one in range(start, end):
        get_gage(url+str(one))
        time.sleep(2)
get_more_gages(1,3) #一组12个图片