爬虫-xpath-4k图片解析下载

薄荷杂学

于 2021-04-24 17:10:18 发布

阅读量224

点赞数

CC 4.0 BY-SA版权

分类专栏： # 爬虫实战文章标签： python 爬虫

本文链接：https://blog.youkuaiyun.com/weixin_43825323/article/details/116094618

本文介绍了如何使用Python爬虫配合XPath解析技术，从指定网站下载4K图片。首先分析需求，从http://www.netbian.com/meinv/抓取图片链接；接着阐述基本思路，通过requests获取网页内容，再用XPath提取图片URL；然后展示代码实现，包括处理中文乱码的问题；最后展示了程序的运行效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1）需求分析

网站：http://www.netbian.com/meinv/
爬取下图所示图片，并保存到本地。

在这里插入图片描述

2）基本思路

首先使用requests模块获取网页数据；
其次，利用xpath解析数据，获取li列表，‘//div[@class=“list”]/ul/li’
然后，循环，提取a标签里面的img标签的src，即可获得图片
最后，将数据保存到本地文件；
在这里插入图片描述

3）程序

（1）导包

import requests
from lxml import etree

（2）使用requests发起响应，获得网页数据

def get_one_page(url):
    """
    获取某一页的数据
    """
    try:
        headers = {
   
   
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36 Edg/89.0.774.54'
        }
        response = requests.get(