1、网络爬虫的类型理论上分为4类,但实际上分为两大类:一类即通俗的称为搜索引擎(通用爬虫);另一类就是网上大部分时间提到的聚焦爬虫,可以定向的爬取数据。
2、常用的反爬虫技术有以下几种
- 用户请求的Headers
- 用户操作网站行为
- 网站目录数据加载
- 数据加密
- 验证码识别
3、但每种反爬虫技术都有相对应的解决方案,这就需要我们能够冲网站的设计结构得知其设置的反爬虫技术。
4、还学习了大量的一些基础信息,如HTTP与HTTPS,Headers、Cookies、HTML.JavaScript、JSON、Ajax等概念,需要反复阅读来理解一下。
本文探讨了网络爬虫的两大类型:通用爬虫与聚焦爬虫,并深入解析了常见的反爬虫技术,包括用户请求Headers、操作行为、目录数据加载、数据加密及验证码识别。同时,文章也提到了应对这些反爬虫策略的方法,以及学习了HTTP与HTTPS、Headers、Cookies、HTML、JavaScript、JSON、Ajax等相关基础知识。
132

被折叠的 条评论
为什么被折叠?



