今天遇到一个任务,给一个excel文件,里面有500多个pdf文件的下载链接,需要把这些文件全部下载下来。我知道用python爬虫可以批量下载,不过之前没有接触过。今天下午找了下资料,终于成功搞定,免去了手动下载的烦恼。
我参考了以下资料,这对我很有帮助:
1、廖雪峰python教程
2、用Python 爬虫批量下载PDF文档 http://blog.youkuaiyun.com/u012705410/article/details/47708031
3、用Python 爬虫爬取贴吧图片 http://blog.youkuaiyun.com/u012705410/article/details/47685417
4、Python爬虫学习系列教程 http://cuiqingcai.com/1052.html
由于我搭建的python版本是3.5,我学习了上面列举的参考文献2中的代码,这里的版本为2.7,有些语法已经不适用了。我修正了部分语法,如下:
# coding = UTF-8
# 爬取李东风PDF文档,网址:http://www.math.pku.edu.cn/teachers/lidf/docs/textrick/index.htm
import urllib.request
import re
import os

本文介绍如何使用Python爬虫从Excel文件中提取500多个PDF下载链接并进行批量下载,通过参考多个教程并调整代码以适配Python 3.5环境,最终成功实现自动化下载。
最低0.47元/天 解锁文章
1034

被折叠的 条评论
为什么被折叠?



