说明
菜狗大学生一枚,本着用什么学什么的原则,对之前简单学习的爬虫进行略微系统的整理,一方面方便以后复习,另一方面也希望给需要的人一点参考,毕竟看了那么多大佬的博客,是时候开始回报社会了哈哈哈(尴尬笑)。
本人对Python的了解不是很多,只是因为某个小项目的需求所以学习了一下,而且我很菜的(大实话),因此如果下文有误,还望各位批评指正。本文的简易爬虫参考了某位大佬的博客,大佬的文章思路清晰,写的也简洁易懂,可惜因为是好几个月之前看的了,实在找不到大佬的文章,此处表示万分感谢。
说回正题,本文主要实现对第1PPT网站(不知道这里要不要打码=_=,侵删)中PPT模板的爬取,属于爬虫中较为简单基础的类型,适合同为小白的同学观看(巨佬请绕路)。
基础知识
1.对爬虫的简单理解:利用编写代码实现机械化的从网页源代码中将我们想要的东西提取出来的方法,这些东西可以是一些特定的文字,也可以是一个个可下载的资源。本文主要讨论后者。
对于可下载资源,我们只需要找到藏在网页源代码中的资源链接(URL)即可。通常,一个界面只会存在一个资源的模板。例如,唯美PPT模板分类下有1到10共10个不同的PPT,点击相应的PPT会进入详情界面,该PPT的下载链接就在其中,代码要做的无非是对