具体的数据如下


查看页面源代码发现,一个好玩的事情,源代码中使用了大量的CSS3的语法
下图,我标注的部分就是关键的一些数据了,大概在600行之后。

反爬措施展示
源文件数据
刹车/<span class='hs_kw86_baikeIl'></span>安全系统
页面显示数据

一些关键数据被处理过了。
爬取关键信息
我们要把源代码中的关键信息先获取到,即使他数据是存在反爬的。获取数据是非常简单的。通过request模块即可
def get_html():
url = "https://car.autohome.com.cn/config/series/59.html#pvareaid=3454437"
headers = {
"User-agent": "你的浏览器UA"
}
with requests.get(url=url, headers=headers, timeout=3) as res:
html = res.content.decode("utf-8")
return html
找关键因素
在html页面中找到关键点:
- var config
- var levelId
- var keyLink
- var bag
- var color
- var innerColor
- var option
这些内容你找到之后,你下手就用重点了,他们是什么?数据啊,通过简单的正则表达式就可

本文介绍了如何应对一个使用复杂反爬策略的网站,通过分析源代码、定位关键变量、利用正则表达式提取数据,并揭示了如何处理混淆后的数据,最终借助selenium实现动态替换,成功获取所需信息。
最低0.47元/天 解锁文章
66万+





