14.python-爬虫的基础认知,爬虫的简单套路,分析

本文详细介绍了爬虫技术的核心流程,包括目标数据定位、请求限制破解、登录授权处理及验证码解决策略。深入探讨了HTML解析技巧,如正则匹配、DOM操作及第三方库应用,并讲解了数据字符串解析方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

爬虫的基本套路


基本流程 

目标数据,来源地址,结构分析,实现构思, 代码实际

基本手段
 1.破解请求限制
      请求头设置
      控制请求频率
      ip代理
      签名、加密参数从html/cookie/js分析                
2.破解登录授权
      请求头带上cookie
3.破解验证码
      简单验证码可以使用识图验证码的第三方库


解析数据


html的dom解析
   1.正则匹配
   2.在script标签的js中,使用第三方库,jquery的库
数据字符串
   1.正则匹配
   2.转json/xml对象解析 
                

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值