Python——爬虫

爬虫基本操作

在这里插入图片描述

*基本流程
目标数据
来源地址
结构分析
实现构思
操刀编码
*基本手段
破解请求限制
请求头控制
控制请求书频率(根据实际情景)
IP代理
签名/加密参数从html/cookie/js分析
破解登录授权
请求带上用户cookie信息
破解验证码
简单的验证码可以使用识图验证码第三方库
*解析数据
HTML Dom解析
正则匹配,通过的正则表达式来匹配想要爬取的数据,如有些数据不是在html标签里,而是在html的script标签的js变量中。
使用第三方库解析html dom,比较喜欢类jquery
数据字符串
正则匹配(根据场景使用)
转JSON/XML 对象进行解析
反爬虫的手段
合法检测:请求效验(useragent,referer,接口加签名,等)
小黑屋:IP/用户限制请求评率,直接拦截。
投毒:返回虚假的数据给爬取者。、
Python爬虫
涉及模块包
请求:
urllib
requests
多线程:
threading
正则:
re
json解析:
json
html dom 解析
beautiful soup
lxml:
xpath
操作浏览器

PS: 欢迎补充和指正

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值