2024年最新Python岗面试，Python爬虫实战：1000图库大全【别轻易点进来】(1)，2024年最新大厂面试题汇总答案-优快云博客

本文链接：https://blog.youkuaiyun.com/2401_84121685/article/details/138118454

收集整理了一份《2024年最新Python全套学习资料》免费送给大家，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上Python知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来

如果你需要这些资料，可以添加V无偿获取：hxbc188 （备注666）

正文

提取的方式可自行选择，小编这里使用正则的方式提取数据，提取详情页面的地址以及标题，用来保存图片起名字，获取到进入详情页面的地址后对地址发送请求，详情页面的数据也分为很多的页面，每个页面有好几张图片，需要对网址进行拼接，构造出新的地址信息，

    for i in range(1, int(page_num[0]) + 1):
        if i == 1:
            new_url = info_url
        else:
            new_url = info_url.replace('.html', f'_{i}.html')
        # print(new_url)
        jpg_data = requests.get(new_url, headers=headers).content.decode('gbk')

请求之后提取出所有的图片地址在对图片地址发送请求，保存数据大功告成！！

简易源码分享

import requests   
import re        

headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36'
}
for i in range(1, 20):
    url = 'https://www.xxxx.com/guoneimeinv/list_5_{}.html'.format(i)
    response = requests.get(url, headers=headers)
    # print(response.content.decode('gbk'))
    # 提取想要的数据信息
    data_list = re.findall('</a> </li><li><a href="(.*?)" class="pic" target="_Blank" alt="(.*?)">', response.content.decode('gbk'))
    # print(data_list)
    num = 0
    for info_url, title in data_list:
        # print(info_url)
         # print(title)
        res = requests.get(info_url, headers=headers).content.decode('gbk')
        # print(res)
        page_num = re.findall('<li><a>共(.*?)页: </a></li><li>', res)
        # print(page_num)

        for i in range(1, int(page_num[0]) + 1):
            if i == 1:
                new_url = info_url
            else:
                new_url = info_url.replace('.html', f'_{i}.html')
            # print(new_url)
            jpg_data = requests.get(new_url, headers=headers).content.decode('gbk')
            # print(jpg_data)
            jpg_url_list = re.findall('<p align="center"><img src="(.*?)" /></p><br/>', jpg_data)
            # print(jpg_url_list)
            for jgp_url in jpg_url_list:
                result = requests.get(jgp_url, headers=headers).content
                f = open('1000图库/' + title + "-" + str(num) + ".jpg", 'wb')
                f.write(result)
                num += 1
                print(f"正在下载{title}第{num}张")

👇🏻 疑难解答、学习资料、路线图可通过搜索下方 👇🏻

最后

🍅 硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。
🍅 技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。
🍅 面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。
🍅 知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

如果你需要这些资料，可以添加V无偿获取：hxbc188 （备注666）

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！
)]

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！