一、爬虫基本认知
1、爬虫的简单定义
网络爬虫,又称为网页蜘蛛、蚂蚁、蠕虫、模拟程序,在FOAF社区中,被称为二王爷追逐者。是一种按照一定的规则,自动抓取万维网信息的程序或者脚本。简单来说,网络爬虫就是使用事先写好的程序去抓取网络上所需要的数据。
2、通用网络爬虫
搜索引擎的第一步就是爬虫,但是搜索引擎中的爬虫是一种广泛获取各种网页信息的程序,除了HTML文件外,搜索引擎通常还会抓取和索引文字为基础的多种文件类型,如TXT,WORD,PDF等。但是对于图片, 视频,等非文字的内容则一般不会处理,并且对于脚本和一些网页中的程序也不会处理的。
3、聚焦网络爬虫(主要学习方向)
针对某一特定领域的数据进行抓取的程序。比如旅游网站,金融网站,招聘网站等等;特定领域的聚集爬虫会使用各种技术去处理我们需要的信息,所以对于网站中动态的那些程序,脚本仍会执行,以保证确定能抓取到网站中的数据。
4、爬虫的用途
- 解决冷启动问题:对于很多社交类的网站和应用程序,冷启动很困难。要想留住新注册的用户,需要先注入一批假用户,已构造社区的氛围。通常这些假的用户可以通过网络爬虫从微博或其他APP中抓取而来。
- 搜索引擎的根基:做搜索引擎需要数据来源,就是通过爬虫程序来实现的
- 建立知识图谱:这是在机器学习方面的用途,爬虫可以帮助建立起机器学习的训练集
- 数据分析:制作各种商品的比价,进行数据分析、趋势分析、走势预测
5、爬虫的合法性问题
1)目前还处于不明确的蛮阶段,“哪些行为不允许”这种基本秩序还处于建设中。
2)至少目前来看,如果抓取的数据为个人所用,则不存在问题;如果数据用于转载,那么抓取数据的类型就很重要了
3)一般来说,当抓取的数据是实现生活中的真实数据(比如,营业地址,电话清单)时,是允许转载的。但如果是原创数据(文章