一起进步吧!感谢大家的支持和关注
需求
如何爬取多媒体资源(图片,音频,视频,动图)
爬取一张图片,保存到本地
分析
找一张百度上的图片的地址
问题
- 多媒体资源都是二进制,返回数据时用content
- 持续化存储 要用wb模式
源代码
import requests
headers = {
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36X-Requested-With: XMLHttpRequest'
}
# 获取图片地址:通常为img标签的src属性值
img_src = "https://img0.baidu.com/it/u=3074825518,2446056497&fm=253&fmt=auto&app=120&f=JPEG?w=500&h=500"
# 对图片发起请求
response = requests.get(url=img_src, headers=headers)
# 获取图片数据:content返回的是二进制形式的响应数据
img_data = response.content
# 持久化存储
with open('./xx.jpeg', 'wb') as fp:
fp.write(img_data)
不足
爬取一张根本没有什么用
爬虫的关键就在于怎样去批量爬取