练习python爬虫快速初步入门脚本

最新推荐文章于 2024-07-11 17:26:43 发布

RichardLau_Cx

最新推荐文章于 2024-07-11 17:26:43 发布

阅读量289

点赞数 1

CC 4.0 BY-SA版权

分类专栏： Python 开发文章标签：练习python爬虫快速初步入门脚本 python 爬虫爬虫入门练习爬虫

本文链接：https://blog.youkuaiyun.com/Richardlcx/article/details/91349330

Python 开发专栏收录该内容

15 篇文章

订阅专栏

本文介绍了一个简单的Python爬虫脚本，用于从特定网站抓取图片。通过安装requests库，发送GET请求获取网页源码，使用正则表达式筛选图片链接，并下载保存到本地。适合初学者实践。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

练习python爬虫快速初步入门脚本

PS:通过以下代码可以初步练习爬取一般网址图片

    # zero.安装框架  pip install requests （可以通过pycharm的terminal终端中实现）
    import requests
    import re
    
    
    # first.确定URL（网址，统一资源定位符）  URL是自己起的名字
    url = 'http://www.doutula.com/photo/list/'
    
    # second.请求（使用这个框架（requests），里面的get（网络请求方法，去网址（URL）里面拿数据）
    text_string = requests.get(url).text
    print(text_string)
    
    # third.筛选数据（使用正则表达式）
    image_urls = re.findall('data-original="(http://ww4.sinaimg.cn/bmiddle/9150e4e5gy1g3toh4l3bmj206o06ojtf.jpg)"', text_string)  
    # data-original="(.*?)" ?为贪恋符号，语句可以筛选本URL中的全部特定内容
    # 其中只是提供一个示例URL
    
    for image_url in image_urls:
        image_name = image_url.split('/')[-1]
        print(image_name)
        # ['this.src='http:','','img.doutula.com','production','uploads','image','2019','06','07','20190607864141_oKJUcr.jpg']
        # 下载内容
        image = requests.get(image_url).content
    
    # fourth.保存数据
        with open('./Crawler_images/%s' %image_name, 'wb') as file:在这里插入代码片
            file.write(image)