python简单爬取小型网页图片

最新推荐文章于 2025-09-09 15:42:46 发布

原创最新推荐文章于 2025-09-09 15:42:46 发布 · 304 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文介绍了一种使用Python爬虫技术抓取网络图片的方法。通过解析百度贴吧页面源代码，利用正则表达式匹配图片链接，并下载保存至指定文件夹。文章提供了完整的代码示例。

这周忙着各种复习考试和补课真的是有点晓凡，差不多快落了有一个兴趣没学习了，突然想着python可以爬取文字，那肯定也可以提取图片吧。果不其然，前辈们都为我们这些小白做出了贡献，模仿着以前大佬的提示，我也爬到了女神的照片哈哈

# coding=gbk

import urllib.requestimport reimport os

#根据给定的网址来获取网页详细信息，得到的html就是网页的源代码

def getHtml(url):

page = urllib.request.urlopen(url)

html = page.read()

return html.decode('UTF-8')

def getImg(html):

reg=r'src="(http://imgsrc.*?\.jpg)"'

imgre = re.compile(reg)

imglist = imgre.findall(html) #表示在整个网页中过滤出所有图片的地址，放在imglist中

x = 93 #因为文件夹有92张图，所以从93开始计数。依次增加

path = 'F:\\郑秀晶手机' # 将图片保存到F:\\郑秀晶手机文件夹中

if not os.path.isdir(path):

os.makedirs(path) paths = path+'\\' #保存在F:\\郑秀晶手机路径下

for imgurl in imglist: urllib.request.urlretrieve(imgurl,'{}{}.jpg'.format(paths,x))

#打开imglist中保存的图片网址，并下载图片保存在本地，format格式化字符串

x = x + 1

return imglisthtml = getHtml("http://tieba.baidu.com/p/5775270416")

#获取该网址网页详细信息，得到的html就是网页的源代码

print (getImg(html)) #从网页源代码中分析并下载保存图片

下面是爬的结果

这是爬的网页地址： http://tieba.baidu.com/p/5775270416

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。