Python之网络爬虫（爬虫基本认知、网络爬虫之路）

最新推荐文章于 2021-01-14 23:07:43 发布

原创

最新推荐文章于 2021-01-14 23:07:43 发布 · 800 阅读

·

2

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#python #搜索引擎 #程序人生 #python 新浪爬虫新浪微博 selenium 源码 #数据抓取

文章目录

一、爬虫基本认知

1、爬虫的简单定义
网络爬虫，又称为网页蜘蛛、蚂蚁、蠕虫、模拟程序，在FOAF社区中，被称为二王爷追逐者。是一种按照一定的规则，自动抓取万维网信息的程序或者脚本。简单来说，网络爬虫就是使用事先写好的程序去抓取网络上所需要的数据。

2、通用网络爬虫
搜索引擎的第一步就是爬虫，但是搜索引擎中的爬虫是一种广泛获取各种网页信息的程序，除了HTML文件外，搜索引擎通常还会抓取和索引文字为基础的多种文件类型，如TXT，WORD，PDF等。但是对于图片，视频，等非文字的内容则一般不会处理，并且对于脚本和一些网页中的程序也不会处理的。

3、聚焦网络爬虫（主要学习方向）
针对某一特定领域的数据进行抓取的程序。比如旅游网站，金融网站，招聘网站等等;特定领域的聚集爬虫会使用各种技术去处理我们需要的信息,所以对于网站中动态的那些程序，脚本仍会执行，以保证确定能抓取到网站中的数据。

4、爬虫的用途

解决冷启动问题：对于很多社交类的网站和应用程序，冷启动很困难。要想留住新注册的用户，需要先注入一批假用户，已构造社区的氛围。通常这些假的用户可以通过网络爬虫从微博或其他APP中抓取而来。
搜索引擎的根基：做搜索引擎需要数据来源，就是通过爬虫程序来实现的
建立知识图谱：这是在机器学习方面的用途，爬虫可以帮助建立起机器学习的训练集
数据分析：制作各种商品的比价，进行数据分析、趋势分析、走势预测

5、爬虫的合法性问题
1）目前还处于不明确的蛮阶段，“哪些行为不允许”这种基本秩序还处于建设中。
2）至少目前来看，如果抓取的数据为个人所用，则不存在问题;如果数据用于转载，那么抓取数据的类型就很重要了
3）一般来说，当抓取的数据是实现生活中的真实数据(比如，营业地址，电话清单)时，是允许转载的。但如果是原创数据（文章、意见、评论），通

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

鸿蒙Next 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。