练习python爬虫快速初步入门脚本

本文介绍了一个简单的Python爬虫脚本,用于从特定网站抓取图片。通过安装requests库,发送GET请求获取网页源码,使用正则表达式筛选图片链接,并下载保存到本地。适合初学者实践。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

练习python爬虫快速初步入门脚本

PS:通过以下代码可以初步练习爬取一般网址图片

    # zero.安装框架  pip install requests (可以通过pycharm的terminal终端中实现)
    import requests
    import re
    
    
    # first.确定URL(网址,统一资源定位符)  URL是自己起的名字
    url = 'http://www.doutula.com/photo/list/'
    
    # second.请求(使用这个框架(requests),里面的get(网络请求方法,去网址(URL)里面拿数据)
    text_string = requests.get(url).text
    print(text_string)
    
    # third.筛选数据(使用正则表达式)
    image_urls = re.findall('data-original="(http://ww4.sinaimg.cn/bmiddle/9150e4e5gy1g3toh4l3bmj206o06ojtf.jpg)"', text_string)  
    # data-original="(.*?)" ?为贪恋符号,语句可以筛选本URL中的全部特定内容
    # 其中只是提供一个示例URL
    
    for image_url in image_urls:
        image_name = image_url.split('/')[-1]
        print(image_name)
        # ['this.src='http:','','img.doutula.com','production','uploads','image','2019','06','07','20190607864141_oKJUcr.jpg']
        # 下载内容
        image = requests.get(image_url).content
    
    # fourth.保存数据
        with open('./Crawler_images/%s' %image_name, 'wb') as file:在这里插入代码片
            file.write(image)

等熟悉了五步走操作之后就可以去自己想爬取的平台去实战练习啦!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值