自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

ymqzhy的博客

动态加载页面添加线程爬取

关注

文章平均质量分 90

关注数：文章数：1 文章阅读量：653 文章收藏量：19

作者: guidovans

这个作者很懒，什么都没留下…

展开

关于微博热搜爬取（此爬虫旨在获取大量用户信息，字段包含，ip，账号创建时间，粉丝数，视频点赞量等，mysql保存）

概述：由于微博热搜页面是动态加载，每次请求可以获取10篇左右的文章，作者首先获取文章详情页信息，再通过抓取参与评论的用户，对筛选到的id和评论进行去重，避免用户对应错误id。详情页面的信息也是动态加载如果使用selenium，或者DrissionPage自动化库需要多次下拉点击才能显示少量数据所以此时自动化效率极低，＂max_id＂：前一个数据包中提取＂，注意第一个数据包中不需要该参数。希望大家可以互相学习，学习编程是一条漫长的道路，静下心，一步一个脚印才能真正学到知识。热搜文章详情页面的uid。

原创 2025-03-07 18:39:22 · 653 阅读 · 0 评论