- 博客(3)
- 收藏
- 关注

原创 关于微博热搜爬取(此爬虫旨在获取大量用户信息,字段包含,ip,账号创建时间,粉丝数,视频点赞量等,mysql保存)
概述:由于微博热搜页面是动态加载,每次请求可以获取10篇左右的文章,作者首先获取文章详情页信息,再通过抓取参与评论的用户,对筛选到的id和评论进行去重,避免用户对应错误id。详情页面的信息也是动态加载如果使用selenium,或者DrissionPage自动化库需要多次下拉点击才能显示少量数据所以此时自动化效率极低,"max_id":前一个数据包中提取",注意第一个数据包中不需要该参数。希望大家可以互相学习,学习编程是一条漫长的道路,静下心,一步一个脚印才能真正学到知识。热搜文章详情页面的uid。
2025-03-07 18:39:22
652
原创 URL参数分析工具(源代码文章底部,使用tkinter轻量级ui库,配置容易,有任何问题评论区解答,大可不必细看开发文档,直接拿去用,能省不少看参数变化的时间)
URL参数分析工具
2025-03-08 22:25:53
915
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人