爬虫实战前的知识储备

最新推荐文章于 2025-02-06 15:49:25 发布

qq_45346273

最新推荐文章于 2025-02-06 15:49:25 发布

阅读量229

点赞数

本文链接：https://blog.youkuaiyun.com/qq_45346273/article/details/102771458

版权

爬虫定义

爬虫：一个自动抓取互联网上信息的脚本

爬虫可以解决的问题

（1）解决冷启动问题。

（2）搜索引擎的根基：做搜索引擎少不了爬虫。

（3）建立知识图谱，帮助建立机器学习知识图谱。

（4）可以制作各种商品的比价软件，趋势分析。

爬虫工程师必备技能

初级爬虫工程师

1.web 前端的知识： HTML、CSS、JavaSc1ipt、 DOM、 DHTML 、Ajax、jQuery、json 等；

2、正则表达式， 能提取正常一般网页中想要的信息，比如某些特殊的文字， 链接信息， 知道什么是懒惰， 什么是贪婪型的正
则；

3、会使用 XPath 等获取一些DOM 结构中的节点信息；

4、知道什么是深度优先， 广度优先的抓取算法， 及实践中的使用规则；

5、能分析简单网站的结构， 会使用urllib或requests 库进行简单的数据抓取。

中级爬虫工程师

1、了解什么事HASH，会简单地使用MD5，SHA1等算法对数据进行HASH一遍存储

2、熟悉HTTP，HTTPS协议的基础知识，了解GET，POST方法，了解HTTP头中的信息，包括返回状态码，编码，user-agent，cookie，session等

3、能设置user-agent进行数据爬取，设置代理等

4、知道什么事Request，什么事response，会使用Fiddler等工具抓取及分析简单地网络数据包；对于动态爬虫，要学会分析ajax请求，模拟制造post数据包请求，抓取客户端session等信息，对于一些简单的网站，能够通过模拟数据包进行自动登录。

5、对于一些难搞定的网站学会使用phantomjs+selenium抓取一些动态网页信息

6、并发下载，通过并行下载加速数据爬取；多线程的使用。

高级爬虫工程师

1、能够使用Tesseract，百度AI，HOG+SVM，CNN等库进行验证码识别。

2、能使用数据挖掘技术，分类算法等避免死链。

3、会使用常用的数据库进行数据存储，查询。比如mongoDB，redis；学习如何通过缓存避免重复下载的问题。

4、能够使用机器学习的技术动态调整爬虫的爬取策略，从而避免被禁IP封禁等。
   能使用一些开源框架scrapy，scrapy-redis等分布式爬虫，能部署掌控分布式爬虫进行大规模数据爬取。

搜索引擎

1.主要组成

通用爬虫：就是将互联网的上页面整体的爬取下来之后，保存到本地。

问题探讨：通用爬虫要想爬取网页，需要网站的url.但是搜索引擎是可以搜索所有网页的。那么通用爬虫url就要涉及到所有网页，这个‘所有’是如何做到的。

最低0.47元/天解锁文章