本文用于记录我自己的第一次python爬虫练习,用七行代码来爬取豆瓣一周口碑榜。在这个练习中,我主要使用了python的requests库和lmxl库。两者都是较容易上手的python网页爬虫第三方库。由于我是真的零基础,只知道一些python的基本语法,所以即使在有代码参考的情况下也遇到了一些问题,我通过这篇文章来对上次的经历进行回顾。
起因
最近在进行python的学习,已经写了一些例如数组排序,猜数字小游戏的小型程序,不过我一直没有接触过爬虫(因为比较拖延,在廖雪峰的python教程上还没有学到爬虫的部分)。这次开始我的练习是因为在微信上看见了一篇文章,讲七行代码爬取豆瓣一周口碑榜,看完心想:“这很容易嘛,那就拿他作为我的第一个爬虫项目了”,于是我就打开idle,创建一个新的py文件,开始跟着教程走。
经过
整个爬虫的开发过程分为编码,解决问题和增加功能三部分。一开始以为只会花一点点时间(就和以为写这篇文章只会花一点点时间一样),当然事实证明,刚开始玩儿爬虫,还是没那么轻松的,总会遇到些问题。不过,解决问题的过程也是很快乐的。
相关代码
先贴上我教程中一开始展示的代码(注释是我自己加的,稍后会调重点解释),代码确实只有七行,虽然在那篇微信文章上代码缩进出了问题,显示只有六行,我刚开始还愣了一下。