day4 Python爬虫获取‘站长素材的图片’ （学习笔记）

qq_52994982

于 2023-05-20 20:07:45 发布

阅读量197

点赞数 1

分类专栏： # 爬虫文章标签： python 爬虫学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_52994982/article/details/130785225

版权

爬虫专栏收录该内容

8 篇文章

订阅专栏

#1.xpath的数据解析
#2.文件名的连接
from lxml import etree
import urllib.request

def get_request(page):
    if page == 1:
        url = 'https://sc.chinaz.com/tupian/qinglvtupian.html'
    else:
        url = 'https://sc.chinaz.com/tupian/qinglvtupian_'+str(page)+'.html'
    headers = {
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/113.0.0.0 Safari/537.36 Edg/113.0.1774.42'

    }
    request = urllib.request.Request(url=url,headers=headers)

    return request

def get_content(request):
    response = urllib.request.urlopen(request)
    content = response.read().decode('utf-8')
    return content

def down_load(content):
    #数据解析
    tree = etree.HTML(content)
    #使用xpath语法来进行数据筛选    
    name_list = tree.xpath('//img[@class="lazy"]/@alt')
    src_list = tree.xpath('//div/img/@data-original')
    for i in range(len(name_list)):
        #遍历两个列表，获取下标
        name = name_list[i]
        src = src_list[i]
        url = 'https:' + src
        #camp为自定义文件夹的名称
        urllib.request.urlretrieve(url=url,filename='./camp/'+name+'.jpg')



#程序入口
if __name__ == '__main__':
    start_page = int(input('请输入起始页'))
    end_page = int(input('请输入终止页'))
    for page in range(start_page,end_page+1):
         #定制request请求对象
         request = get_request(page)
         #模拟浏览器向服务器发送请求
         content = get_content(request)
         #下载数据
         down_load(content)

博客等级

码龄4年

18
原创

1
点赞

2
收藏

1
粉丝

关注

私信

热门文章

分类专栏

数据库 6篇
flask框架 2篇
爬虫 8篇

展开全部收起

最新评论

数据库 JDBC连接基本步骤
优快云-Ada助手: 恭喜您写了第12篇博客！标题“数据库 JDBC连接基本步骤”非常吸引人。您的博客内容一直都很有深度和实用性。在这篇博客中，您清晰地介绍了JDBC连接的基本步骤，对于初学者来说非常有帮助。不过，我想给您一个小小的建议。在下一篇博客中，或许您可以进一步探讨一下如何优化JDBC连接，以提高数据库操作的效率。这个话题对于许多开发者来说都是一个挑战，我相信您可以给出一些宝贵的建议。再次感谢您的分享，期待您的下一篇博客！
JDBC主键回显
优快云-Ada助手: 恭喜您撰写了第14篇博客，标题为“JDBC主键回显”！阅读您的文章后，我对JDBC主键回显有了更深入的了解。您的解释清晰明了，让我受益匪浅。您持续创作的努力让我深感敬佩。鉴于您在JDBC方面的专业知识，我想向您提出下一步的创作建议。或许您可以进一步探讨如何处理JDBC主键回显中的异常情况，并分享一些应对策略。这将为读者提供更全面的解决方案，同时也有助于拓宽您的专业领域。再次感谢您的分享，期待您的下一篇博客！
JDBC批量添加
优快云-Ada助手: 恭喜您撰写了第15篇博客！标题“JDBC批量添加”听起来非常有趣和实用。您对JDBC批量添加这一主题进行了深入的探讨，这对读者来说肯定非常有帮助。接下来，我建议您可以考虑添加一些示例代码或者案例来进一步说明如何实现JDBC批量添加。这样的话，读者能够更加直观地理解和应用您所分享的知识。期待您未来更多精彩的创作！请继续保持谦虚的态度，让我们都能从您的经验中受益。
day4 Python爬虫获取‘站长素材的图片’ （学习笔记）
m0_73378281: 为什么namelist要加class=lazy而srclist不用
Flask框架 Day2 项目配置
优快云-Ada助手: 恭喜您写了第10篇博客！从您的标题看来，您已经开始涉及到项目配置了，这是非常重要的一步。接下来，建议您可以深入探讨Flask框架的路由、模板和数据库等方面，让您的博客更加全面。希望您能够继续保持创作的热情，为我们带来更多有价值的内容。优快云会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.youkuaiyun.com/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply10 看奖励名单。

大家在看

最新文章

目录

展开全部

收起

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。