从火车头了解了翻页与正则表达式带入了爬虫原理、后python的urllib和requests彻底梳理了爬虫过程,之后引入phantomjs chromedriver这些彻底解决了爬虫问题,但是这些太琐碎,而且反爬虫越来越厉害,必须升级爬取武器到专业级别。
用python实现了基本爬虫之后,相比火车头工具,再次体验到了代码在灵活度和速度方面的魅力(之前用python用正则表达式处理文本数据速度是excel的10倍),数据采集全面转向python,对爬虫的关键几步也更加清晰:
1,构造url:包括单页、逐层深入、翻页、传入一个网页list;各种参数例如headers参数
2,访问并下载目标页面
3,目标页面类型定义与解析,解析是根本,看返回的目标类型。
4,存储
5,各种配置,例如限制速度
6,高阶的:各种反爬虫、分布式、断网怎么办、防止重复爬!
上面的流程有很多技术细节,其中从技术上可以分为三个:
1,了解http相关的知识,例如访问、下载,还有分布式,这块东西太多了,绝非易事!因此最容易产生各种问题。
2,构造url,这里包括url表达和相关的参数,积累多了也就熟练了。
3,phantomjs操作
4,解析数据,正则表达式(虽然使用起来最麻烦,但是实际操作来看必不可少)、bs4、css、xpath这些,掌握的方法也是多用,多积累代码。
以上应用爬虫的人最关心同时最应该花费心思的就是