
微博爬虫
文章平均质量分 51
月小水长
这个作者很懒,什么都没留下…
展开
-
2018-2022 年份微博签到数据集
前两年采集的深圳签到数据是 2022 年是当年的尚可,这次虽然时间跨度只有两个月,但是由于时间太过久远,但是颇费了一番心力,还好最终老师只需要每个月 10000 条左右,我赶紧停止了集群的采集,一看代理池马上欠费了。微博签到数据的采集,时间越久越难采集,看到网上有很多分享 2014 年全国微博签到数据的,我看了下其实那个只是 poi 数据,而且绝大部分的 poi 被重置了,poi 链接打不开,查无此微博。前阵子接到一个实验室老师的需求,采集五年前(2024-5=2019)过年前后的北京微博签到数据。原创 2024-07-10 00:24:58 · 796 阅读 · 6 评论 -
2022 年 8 月初北上广深杭热门签到打卡点微博数据集
北上广深杭热门的微博打卡点约 20w 数据集,时间跨度为 2022 年元旦至 8 月 9 日。原创 2022-08-12 22:40:56 · 819 阅读 · 4 评论 -
2022 年最新微博签到数据集
微博签到数据集,目前全网搜到的多为较老的 800w 数据集或已下线的接口,没有多大参考价值。所以自研了一个系统,可以抓取全国任意城市的微博签到数据,单城市签到微博去重最多可达 100w+,字段包括经纬度、签到地点、微博链接、博主链接、内容、图片链接(图片可下载)、发布时间、转评赞数等数十个字段。下面是深圳 2022 年 4 月底最新微博签到数据集:共计 50w,csv 文件 330M。除了深圳,全国其他任意城市也可,如果一个城市需要更多数据,则需要定时增量抓取,北上广深杭一线城市达到 100w 数据原创 2022-05-09 11:52:49 · 5787 阅读 · 20 评论 -
开源:用户微博备份助手浏览器扩展
扩展介绍得空写了个微博用户备份助手,它是一款浏览器扩展(插件)。它的作用是备份用户自己或者任意微博用户的微博数据,并将结果保存到本地的 lxsx 文件。使用指南1、确保在浏览器登录了 weibo.cn2、在 weibo.cn 或者 weibo.com 站点内的微博用户主页上点击扩展图标,会显示如上图,自动解析数字 uid,然后点击开始抓取按钮即可;如果自动解析失败,可手动输入然后抓取;如果自定义微博主页用户的数字 uid 获取方式为:在它的主页上任意一条微博上的用户名右键在新标签页打开,浏览器原创 2022-02-16 18:57:10 · 1401 阅读 · 0 评论 -
开源 | 写了个微博去广告、屏蔽拉黑插件
去广告,屏蔽关键词,拉黑用户,组织乱序微博按照时间线排列等多功能,并且开源。原创 2022-01-27 18:07:07 · 1770 阅读 · 0 评论 -
微博位置爬虫发布
微博数据分析经常需要和地理位置相关联,比如查看某一话题下发博人员地理分布,或者用户爬虫下某人轨迹分布,等等;而这次的微博位置爬虫则是直接以位置为切入点爬取微博,只需要输入一个地名,就能抓取在该地点发过的微博具体信息,表结构类似话题爬虫。这个位置爬虫的结果可以和用户信息爬虫联动,比如有这样一个分析任务:去北京环球影城的人,都发了什么微博,男生多还是女生多,年龄群体分布怎么样,等等。都可以先用这个微博位置爬虫,爬完后的 csv 交给用户信息爬虫处理即可。闲话不多说,首先在 公众号 月小水长 后台回复 微博原创 2021-09-17 10:43:43 · 2424 阅读 · 1 评论 -
2021 新版微博转发爬虫发布
今日发布的微博转发爬虫,是之前从没有发布过的微博爬虫,一样是付费内容,主要实现概述如下:根据指定的微博 mid 爬取该微博的转发信息。爬取该微博的转发微博的转发信息;甚至转发地转发地转发,可以无限地套娃…爬取并保存的,字段信息如下:字段名解释mid纯数字形式的微博唯一标识,可与字母+数字形式 id 互转publish_time发布时间user_name微博作者名user_link微博作者链接content内容weibo_link微博链原创 2021-07-17 18:36:19 · 1222 阅读 · 0 评论 -
2021 年 7 月最新微博话题爬虫发布
写在前面时光飞逝,距离微博爬虫这个项目及系列文章 微博超级爬虫 第一次发布已经过去将近两年了,最开始,我也没想到,会维护这个项目如此之久。项目更新过很多次,从代码到文章,熬过夜,也废过食,还好一直有读者反馈,也有不少点赞支持的粉丝,这些大概都是维护这个项目的动力来源。这一年,完成了从一名学生到大厂工程师的转变,自由支配的时间少了许多;有感于大家的热情咨询,这一两周抽空,完成了 2021 年最新版微博爬虫的代码;包括话题、评论、用户三个部分。今天要发布的就是新版****微博话题爬虫。微博话题爬虫相原创 2021-07-09 09:33:33 · 864 阅读 · 0 评论