在学习爬虫前先明确lh 个问题,即what/why/when/how
1.whta:即先明确什么是爬虫,爬虫是用自动获取网页中所需内容的一段代码或一个程序;比如百度或谷哥就是一个大的爬虫;
2.why:为什么要用爬虫-用爬虫最主要的在于效率,如果用人工在浩翰的网络中获取想要的内容,是一件几乎不可能的事;所以要借助计算机程序的力量来完成
3.when:什么时候用爬虫-可以说任何时候,只要你想从网络中,从文件中想获取指定的信息,爬虫就可以实现;
4.how:怎么用,这是我这个爬虫系列博客要解决的最主要的问题。如有兴趣,请慢慢看;
用python编写爬虫一般有两种方法:
一是用通用框架,一步一步实现,这种方法的好处是灵活,面向定向爬取,可扩展性通用性好,适合中小量级的数据爬取;
二是用专用爬中心工具即scrapy,这个模块属商业级专用爬取工具,基本可满足搜索引擎以外千万级别的爬取工作。(这部分以后再写,此次只写第一种方法)
对于一般的爬虫,涉及到较多的模块,其主要的有如下图所示。
这部分主要介绍了要完成从想获取数据到最后可视化展现出来涉及到的学习内容,
下节就逐个来讲解如何从一个想法变成一张可视化图表。