爬虫的基本套路
基本流程
目标数据,来源地址,结构分析,实现构思, 代码实际
基本手段
1.破解请求限制
请求头设置
控制请求频率
ip代理
签名、加密参数从html/cookie/js分析
2.破解登录授权
请求头带上cookie
3.破解验证码
简单验证码可以使用识图验证码的第三方库
解析数据
html的dom解析
1.正则匹配
2.在script标签的js中,使用第三方库,jquery的库
数据字符串
1.正则匹配
2.转json/xml对象解析

本文详细介绍了爬虫技术的核心流程,包括目标数据定位、请求限制破解、登录授权处理及验证码解决策略。深入探讨了HTML解析技巧,如正则匹配、DOM操作及第三方库应用,并讲解了数据字符串解析方法。

被折叠的 条评论
为什么被折叠?



