python3

原创已于 2022-07-19 23:50:11 修改 · 105 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python #前端 #爬虫

于 2022-07-19 23:27:55 首次发布

xpath 专栏收录该内容

2 篇文章

订阅专栏

在这里插入代码片
"""
#!/usr/bin/python3
# -*- coding: utf-8 -*-
# @Time    : 2022/7/1 0:22
# @Author  : allen
"""
from lxml import etree
import requests
import sys
import parsel
import os
if __name__ == "__main__":
    for page in range(1, 58):
        if page == 1:
            url = "https://pic.netbian.com/4kmeinv/index.html"
        else:
            url = "https://pic.netbian.com/4kmeinv/index_%s.html" % (page)
        headers = {
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.0.0 Safari/537.36"}
        response = requests.get(url=url, headers=headers)
        response.encoding = response.apparent_encoding
        page_text = response.text
        tree = etree.HTML(page_text)
        div_list = tree.xpath("//div[@class='slist']/ul/li")
        """给每一页创建一个新的文件夹，放在picLibs文件夹下"""
        if not os.path.exists(".picLibs/%s" % (page)):
            os.makedirs('./picLibs/%s' % (page))
        else:
            pass
        print("\n*******加载第%s页*******\n" % page)
        for div in div_list:
            # img_src ="https://www.bizhi88.com/"+div.xpath("./a/img/@src")[0]
            img_url ="https://pic.netbian.com/" + div.xpath("./a/@href")[0]
            # print(img_url)
            """"获取每张图片的名字"""
            img_name = div.xpath("./a/img/@alt")[0]+'.jpg'
            # print('%s'%(img_name), sys.getdefaultencoding())
            img_name = img_name.encode('utf-8').decode('utf-8')
            # print(img_name)
            html_data = requests.get(url=img_url, headers=headers).text
            # print(html_data)
            tree1 = etree.HTML(html_data)
            img_src = "https://pic.netbian.com/" +tree1.xpath("//div[@class='photo-pic']/a/img/@src")[0]

            img_data = requests.get(url=img_src, headers=headers).content
            # print(img_src)
            """将图片放在指定的文件夹下"""
            img_path = "picLibs/%s/" % (page) + img_name
            with open(img_path, "wb") as fp:
                fp.write(img_data)
                print(img_name, "获取图片成功！！！")

获取所有高清大图