python爬虫爬取百度图片

最新推荐文章于 2025-04-23 21:30:04 发布

_zs_dawn

最新推荐文章于 2025-04-23 21:30:04 发布

阅读量3.7k

点赞数 10

分类专栏： python学习文章标签： python 百度爬虫 requests 正则表达式

本文链接：https://blog.youkuaiyun.com/m0_52521883/article/details/120232250

版权

10.25
百度页面改了，方法失效了

开发环境

日期：2021.9.11
开发环境：python 3.9和pycharm
ps：pycharm今天第一次用，随着将越来越多开发环境集成到vscode上，感觉太复杂了，配置又不太懂，总是有问题，虽然很喜欢vscode的自由度，但不想折腾了，简单的开发环境更重要！
第三方库：

用来实现对文件的操作
第一个函数：检测文件是否存在
第二个函数用来新建文件

os.path.exists(base_dir)
os.mkdir

用来延时，防止封 ip

time。sleep（1）#延时1ms

当图片网址失效时，用以实现异常检测，使程序不中断，继续爬下一个图片，同时输出异常

try:
       # 爬取代码    
except urllib.error.URLError:
	print("下载失败")

URL只允许一部分ASCII字符，其他字符（如汉字）是不符合标准的，此时就要进行编码。

将搜素内容进行编码

keyword = quote("猫", encoding='utf-8')
#最终编码的后的是  %E7%8C%AB  （没看错就是这样一串字符）

正则表达式
查看百度图片的源码可找到图片的地址
在这里插入图片描述
这里相当于去获取https://img1.baidu.com/it/u=1225680675,2635144528&fm=26&fmt=auto&gp=0.jpg

注意见面的 r ，所以’ ‘单引号是字符串，而里面的双引号就是单纯的双引号字符
查找的是括号里面的内容

r'thumbURL":"(.*?)"'

"thumbURL":"https://img1.baidu.com/it/u=1225680675,2635144528&fm=26&fmt=auto&gp=0.jpg"

再讲讲这个
正则表达式中的 .? 或 .+

后边多一个？表示懒惰模式。
必须跟在*或者+后边用
如：

<img src="test.jpg" width="60px" height="80px"/>

如果用正则匹配src中内容非懒惰模式匹配

src=".*"

匹配结果是：
src="test.jpg" width="6