python爬虫爬取百度图片

10.25
百度页面改了,方法失效了

开发环境

  1. 日期:2021.9.11
  2. 开发环境:python 3.9和pycharm
    ps:pycharm今天第一次用,随着将越来越多开发环境集成到vscode上,感觉太复杂了,配置又不太懂,总是有问题,虽然很喜欢vscode的自由度,但不想折腾了,简单的开发环境更重要!
  3. 第三方库:
  • requests 2.25.1
  • urlibs 1.26.4

涉及的知识点

os

用来实现对文件的操作
第一个函数:检测文件是否存在
第二个函数用来新建文件

os.path.exists(base_dir)
os.mkdir

time

用来延时,防止封 ip

time。sleep(1#延时1ms

urllib.error

当图片网址失效时,用以实现 异常检测,使程序不中断,继续爬下一个图片,同时输出异常

try:
       # 爬取代码    
except urllib.error.URLError:
	print("下载失败")

quote

URL只允许一部分ASCII字符,其他字符(如汉字)是不符合标准的,此时就要进行编码。

将搜素内容进行编码

keyword = quote("猫", encoding='utf-8')
#最终编码的后的是  %E7%8C%AB  (没看错就是这样一串字符)

re

正则表达式
查看百度图片的源码可找到图片的地址
在这里插入图片描述
这里相当于去获取https://img1.baidu.com/it/u=1225680675,2635144528&fm=26&fmt=auto&gp=0.jpg

注意见面的 r ,所以’ ‘单引号是字符串 ,而里面的 双引号就是单纯的双引号字符
查找的是括号里面的内容

r'thumbURL":"(.*?)"'

"thumbURL":"https://img1.baidu.com/it/u=1225680675,2635144528&fm=26&fmt=auto&gp=0.jpg"

(.*?)

再讲讲这个
正则表达式中的 .? 或 .+

后边多一个?表示懒惰模式。
必须跟在*或者+后边用
如:

<img src="test.jpg" width="60px" height="80px"/>

如果用正则匹配src中内容非懒惰模式匹配

src=".*"

匹配结果是:
src="test.jpg" width="6

评论 11
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值