我们知道,做数据分析,数据是第一位,所以首先我们应该拥有自己的数据,如果我们自身没有足够的数据,那就需要做大量的数据采集,现在用python做数据采集也就是我们常说到的爬虫是最广泛的,基本上可以会经历三个过程:
1. 使用request库爬取网页内容,这个时候网页已经拉到我们本地了。
2. 使用XPath解析内容。XPath是XML+Path的缩写,也就是XML路径语言。它是一种用来确定XML文档中某部分位置的语言,在开发中经常用来当作小型查询语言。XPath可以通过元素和属性进行位置索引。
3. 使用Pandas保存数据。Pandas是让数据分析工作变得更加简单的高级数据结构,我们可以用Pandas保存爬取的数据。最后通过Pandas再写入到XLS或者MySQL等数据库中。
具体的使用python做爬虫的实现可以自行上网搜一下,网上有大量资料关于这方面的介绍。
或者可以看下我的github上面的几个例子:
https://github.com/xiaoyuan199/Baike_Scrapy
另外我们也可以不编程就抓取到网页信息,这里介绍三款爬虫工具:
火车采集器
八爪鱼
集搜客
一些比较简单的任务都可以通过这种软件进行抓取,因为不需要编程,所以入门比较简单,可以作为一种辅助工具。