爬虫的基本套路
基本流程
目标数据,来源地址,结构分析,实现构思, 代码实际
基本手段
1.破解请求限制
请求头设置
控制请求频率
ip代理
签名、加密参数从html/cookie/js分析
2.破解登录授权
请求头带上cookie
3.破解验证码
简单验证码可以使用识图验证码的第三方库
解析数据
html的dom解析
1.正则匹配
2.在script标签的js中,使用第三方库,jquery的库
数据字符串
1.正则匹配
2.转json/xml对象解析