本实战项目是中国大学MOOC国家精品课程《Python网络爬虫与信息提取》(by 嵩天 北京理工大学)学习笔记。代码段均可在ide中运行by now(2021-12-02).
1.爬取目标
爬取中文版国家地理杂志某张图片并保存在本地电脑上。

2.爬取链接
https://www.natgeo.com.cn/pic/program_default.768.jpg
3.技术路线
requests+os
python的os模块主要用于访问操作系统功能的模块,主要应用场景是目录的增删改查。
本例需要将图片下载到自己的电脑中,需要在下载前需创建文件目录用以接受文件。
4.全代码及输出模块
# 图片爬取全代码
import requests
import os
url = 'https://www.natgeo.com.cn/pic/program_default.768.jpg'
root = 'D://pic//'
path = root + url.split('/')[-1]
print(path)
try:
if not os.path.exists(root):
# 判断根目录是否存在,不存在则创建
os.mkdir(root)
# print(root)
if not os.path.exists(path):
# 判断path是否存在,不存在则用get获取url内容(图片)
r = requests.get(url)
with open(path,'wb') as f:
f.write(r.content)
f.close()
print('文件保存成功')
else:
print('文件已存在')
except:
print('爬取失败')
运行结果

5.总结
本案例难度不大,代码框架在图片保存项目中有普适性。
本篇博客记录了使用Python的requests和os模块爬取并保存国家地理杂志中文版某图片的过程。代码展示了如何检查目录是否存在,创建文件夹,以及下载并保存图片到本地。最终实现了图片的顺利下载。

1456

被折叠的 条评论
为什么被折叠?



