初学python 爬虫

最新推荐文章于 2025-08-05 17:20:40 发布

不会玩游戏的码农

最新推荐文章于 2025-08-05 17:20:40 发布

阅读量177

点赞数

CC 4.0 BY-SA版权

分类专栏： python 文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qrnhhhh/article/details/82589418

python 专栏收录该内容

1 篇文章

订阅专栏

在python3中有一个 urllib模块，使用urllib 这个模块来进行简单的爬虫。

from urllib import request #引用这个模块

import re

def getObject(url):

urlObject = request.urlopen(url) #打开一个url,获得http请求的上下文，也就是 http reponse 对象

return getObject

def getjpglist(data): #使用正则表达式，匹配图片路径

list = re.findall(r'src = https.+?.jpg',data)

return list

httpObject = getObject("https://www.youkuaiyun.com/") #得到这个http reponse对象

#httpObject .geturl() 可以得到地址

#httpObject .info() 获得headers

#httpObject .getcode() 获得http的状态

data = httpObject .read().decado('utf-8') #得到内容，得到内容之后我们就可以用正则筛选自己想要的东西

jlist = getjpglist(data)

global n #声明一个全局变量

for jpg in jlist : #循环得到的图片地址的集合，打印出来

print(list)

n = n+1

# 如果想要下载图片可以使用 request.urlretrieve() 方法

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。