Python基础学习——正则表达式与第一个爬虫(requests)

本文介绍如何使用Python的requests库安装方法及验证,并通过结合正则表达式从网页抓取图片资源,适用于初学者实践爬虫技能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

以上是关于正则表达式的一些用法

关于第一个简单爬虫,利用requests库来实现

关于requests的安装:

安装很简单,我是win系统,就在这里下载了安装包(网页中download the zipball处链接),然后$ python setup.py install就装好了。
当然,有easy_installpip的朋友可以直接使用:easy_install requests或者pip install requests来安装。
至于linux用户,这个页面还有其他安装方法。
测试:在IDLE中输入import requests,如果没提示错误,那说明已经安装成功了!

import re
import urllib.request
import requests
# urllib.urlopen()方法用于打开一个URL地址。
req = urllib.request.urlopen('https://www.imooc.com/')
#read()方法用于读取URL上的数据
buf = req.read().decode()
#decode bytes->str,encode str->bytes
#re.findall() 方法读取buf中包含(正则表达式)的数据,并形成一个list
listurl = re.findall(r'src=\"(.*?\.jpg)',buf)
i=0
for  url in listurl:
    f = open(str(i)+'.jpg','wb')
    url = 'http:' + url
    #获取文本
    data = requests.get(url).text
    #下载图片等二进制文件
    data = requests.get(url).content
    f.write(data)
    f.close()
    i+=1

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值