- 博客(4)
- 收藏
- 关注
原创 掌上高考爬虫
当你发现你搜索关键词'清华大学'的时候并没有匹配接口,不是没有,而是Unicode编码,不是明文,我们可以收索数字类型的关键字,这边建议收索'占地面积'的数字,为什么不是'人气值'和软科排行等数字呢,第一,人气值的数据是另外一个接口,那个接口只有人气值数据,而收索软科排行数字不好找接口,所以建议收索'占地面积'.右击'检查'或者F12,我们先清空响应数据,然后ctrl+R或者刷新页面,然后搜索关键词。聪明的同学就知道到了,这个'140'是清华学校的id了,哪id从哪获取?是在我们第一次寻找到的接口!
2025-02-13 10:07:06
1053
1
原创 天眼查数据抓取
确确实实里面有数据,但是有坑.我们网络爬虫一定要细致!想想要是我爬第二页或爬别的地区是不是载荷有变化.先说说坑在那吧.正常访问最多获取一页数据,要登录才能获取两页数据,也可以去淘宝花费1,2块买个vip,这样就能获取多条数据了.正常这里get请求传header之后就能获取,切记这里别急着bs4解析数据其实在图2里有json数据。然后我们查看载荷,不难看出pageNum是换页码的,filterJson里可以改省,市,区。其实这里这个接口是错误的,在这里可以这样操作,先清除所有响应数据,然后直接换到第二页。
2024-10-11 20:18:32
1868
6
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人