探索的问题:
IP绑定到一个HttpClient?
绑定的目标实质是维持登陆状态. 更通常的做法是保持旧的cookie
当IP绑定后 发生IP切换应该怎么处理?
1.抓取模块
2.解析模块
3.提取使用模块
常见封爬虫策略(完善中):
1.众所周知:验证码.
2.简单的: UA和cookie.
3.非人类的访问速度. 及特征.
4.表单中添加隐藏的字段.
探索的问题:
IP绑定到一个HttpClient?
绑定的目标实质是维持登陆状态. 更通常的做法是保持旧的cookie
当IP绑定后 发生IP切换应该怎么处理?
1.抓取模块
2.解析模块
3.提取使用模块
常见封爬虫策略(完善中):
1.众所周知:验证码.
2.简单的: UA和cookie.
3.非人类的访问速度. 及特征.
4.表单中添加隐藏的字段.