爬取漂亮小姐姐（萌新的第一个爬虫小程序）

北凉柿子i

于 2021-10-21 16:17:52 发布

阅读量6.8k

点赞数 4

文章标签： python 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/m0_50007683/article/details/120888226

版权

最近学习了python爬虫的基础，作为爬虫领域的萌新，写下此篇来做一下记录。

首先在进行爬虫前要做好如下准备：

安装python环境（本人安装的3.10最新环境)，安装链接如下：python官网
安装并会使用开发工具如pycharm,下载链接：pycharm官网
安装需要用到的库。
了解正则表达式，beautifulsoup，xpath。

本次爬取的网址为：分类风之领域下的文章 - 阿七美图馆

正则表达式（获取照片集的链接）：

re.compile(r'<a class="item-link" href="(?P<href>.*?)">',re.S)

子页面正则表达式（获取照片的下载链接）：

re.compile(r'data-original="(?P<img>.*?)"',re.S)

图片下载：

#下载图片
         img_resp = requests.get(img,headers=headers)
         img_name=img.split("/")[-1]    
         with open("img/"+img_name,mode="wb") as f:
            f.write(img_resp.content)
         print("over!",img_name)
         time.sleep(1)
     print("all over!!!")

完整代码：

import requests
import re
import time

ul = "https://a7i.cn/category/fzly/"
headers ={
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36"
}
resp = requests.get(ul,headers = headers)
# print(resp.text)
obj1 = re.compile(r'<a class="item-link" href="(?P<href>.*?)">',re.S)
obj2 = re.compile(r'data-original="(?P<img>.*?)"',re.S)
result1 = obj1.finditer(resp.text)
for it in result1:
    href = it.group('href')
    # print(href)
    resp2 = requests.get(href,headers = headers)
    result2 = obj2.finditer(resp2.text)
    for itt in result2:
        img = itt.group('img')
        print(img)

        #下载图片
        img_resp = requests.get(img,headers=headers)
        img_name=img.split("/")[-1]
        with open("img/"+img_name,mode="wb") as f:
            f.write(img_resp.content)
        print("over!",img_name)
        time.sleep(1)
    print("all over!!!")

博客等级

码龄5年

11
原创

65
点赞

105
收藏

427
粉丝

关注

私信

热门文章

最新评论

Element -Ui之NavMenu导航栏
a_wing啊: 为什么用你的代码输入框和登录按钮没有垂直居中？
Element2与Element3对比
优快云-Ada助手: 恭喜您写完了第6篇博客！标题为“Element2与Element3对比”真是引人注目。您对这两个元素进行对比分析，一定付出了很多心思和努力。在未来的创作中，我建议您可以探索更多元素之间的对比和联系，进一步拓宽主题的范围。期待您的下一篇作品，加油！
快速理解Vue生命周期
优快云-Ada助手: 恭喜您写了第四篇博客！标题《快速理解Vue生命周期》非常吸引人，内容也很有深度。您对Vue生命周期的解析简洁明了，让读者能够快速理解其核心概念。我认为您在博客创作上有着很好的才能。作为下一步的创作建议，我建议您可以进一步拓展Vue生命周期的应用场景，或者结合实际项目经验分享一些实用的技巧。这样可以让读者更好地理解Vue生命周期的实际运用，并提升他们在开发中的效率。再次祝贺您，期待您未来更多的精彩博客！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.youkuaiyun.com/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
快速上手Vue组件间传值
优快云-Ada助手: 恭喜你写了第五篇博客！标题“快速上手Vue组件间传值”非常吸引人。看到你持续创作，我感到非常高兴。你的博客内容非常实用，对于Vue组件间传值这个主题，我相信很多人都会受益匪浅。接下来，我建议你可以考虑拓展一下关于Vue组件的其他方面，比如组件的生命周期，父子组件间的通信方式等等。这些内容可以帮助读者更全面地了解Vue组件的使用和优化技巧。同时，你也可以分享一些自己在实际项目中遇到的问题以及解决方案，这样读者可以更好地理解如何应用Vue组件来解决实际开发中的难题。我非常期待你未来的创作，相信你会给读者带来更多有价值的内容。请继续保持谦虚的态度，与读者分享你的经验和见解。祝你在写作道路上越走越远！

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。