关于微博热搜爬取(此爬虫旨在获取大量用户信息,字段包含,ip,账号创建时间,粉丝数,视频点赞量等,mysql保存)
概述:由于微博热搜页面是动态加载,每次请求可以获取10篇左右的文章,作者首先获取文章详情页信息,再通过抓取参与评论的用户,对筛选到的id和评论进行去重,避免用户对应错误id。详情页面的信息也是动态加载如果使用selenium,或者DrissionPage自动化库需要多次下拉点击才能显示少量数据所以此时自动化效率极低,"max_id":前一个数据包中提取",注意第一个数据包中不需要该参数。希望大家可以互相学习,学习编程是一条漫长的道路,静下心,一步一个脚印才能真正学到知识。热搜文章详情页面的uid。
原创
2025-03-07 18:39:22 ·
653 阅读 ·
0 评论