爬虫涉及若干问题

本文概述了爬虫技术中常见的核心问题,包括页面数据类型、请求分类、反爬措施、Cookie使用、请求方式及数据格式等。同时探讨了爬虫过程中可能遇到的失败情况和重试策略,并对加密手段、系统架构特性以及一些常见的麻烦和异常点进行了说明。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

爬虫涉及若干问题V1.0

 

页面数据:

1.     特定数据

2.     结构型数据

3.     不规则数据

4.     待挖掘数据

5.     无价值数据

请求分类:

1.     模式请求

2.     样例请求

3.     指定请求

反爬:

1.     User-Agent

2.     Referer

3.     X-Requested-With

4.     特殊标识

Cookie:

1.     不可考规则

2.     指定Token

请求方式:

1.     key-value

2.     form

3.     json

4.     xml

5.     dwc(特殊框架)

数据格式:

1.     html

2.     json

3.     xml

4.     txt

5.     字节流

6.     加密串

失败分类:

1.     连接超时

2.     403

3.     自然失败

4.     限制失败(短信)

重提策略;

1.     功能重提

2.     事务重提

3.     数据重提

4.     请求重提

麻烦点:

1.     关联请求

顺序规则请求

异常点:

1.     BigDecimal(常出问题)

2.     Json转换(目标有json和html两状态)

3.     类型装换

加密:

1.     Md5

2.     Js加密

3.     Aes

4.      

架构:

1.     敏捷

2.     高效

3.     高可用

4.     韧性

5.     弹性

6.     可扩展性

7.     易构性

共性:

1.     一致性

2.     个性化

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值