Python之网络爬虫(爬虫基本认知、网络爬虫之路)

一、爬虫基本认知

1、爬虫的简单定义
网络爬虫,又称为网页蜘蛛、蚂蚁、蠕虫、模拟程序,在FOAF社区中,被称为二王爷追逐者。是一种按照一定的规则,自动抓取万维网信息的程序或者脚本。简单来说,网络爬虫就是使用事先写好的程序去抓取网络上所需要的数据。

2、通用网络爬虫
搜索引擎的第一步就是爬虫,但是搜索引擎中的爬虫是一种广泛获取各种网页信息的程序,除了HTML文件外,搜索引擎通常还会抓取和索引文字为基础的多种文件类型,如TXT,WORD,PDF等。但是对于图片, 视频,等非文字的内容则一般不会处理,并且对于脚本和一些网页中的程序也不会处理的。

3、聚焦网络爬虫(主要学习方向)
针对某一特定领域的数据进行抓取的程序。比如旅游网站,金融网站,招聘网站等等;特定领域的聚集爬虫会使用各种技术去处理我们需要的信息,所以对于网站中动态的那些程序,脚本仍会执行,以保证确定能抓取到网站中的数据。

4、爬虫的用途

  • 解决冷启动问题:对于很多社交类的网站和应用程序,冷启动很困难。要想留住新注册的用户,需要先注入一批假用户,已构造社区的氛围。通常这些假的用户可以通过网络爬虫从微博或其他APP中抓取而来。
  • 搜索引擎的根基:做搜索引擎需要数据来源,就是通过爬虫程序来实现的
  • 建立知识图谱:这是在机器学习方面的用途,爬虫可以帮助建立起机器学习的训练集
  • 数据分析:制作各种商品的比价,进行数据分析、趋势分析、走势预测

5、爬虫的合法性问题
1)目前还处于不明确的蛮阶段,“哪些行为不允许”这种基本秩序还处于建设中。
2)至少目前来看,如果抓取的数据为个人所用,则不存在问题;如果数据用于转载,那么抓取数据的类型就很重要了
3)一般来说,当抓取的数据是实现生活中的真实数据(比如,营业地址,电话清单)时,是允许转载的。但如果是原创数据(文章

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

鸿蒙Next

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值