
数据分析
文章平均质量分 53
月小水长
这个作者很懒,什么都没留下…
展开
-
2018-2022 年份微博签到数据集
前两年采集的深圳签到数据是 2022 年是当年的尚可,这次虽然时间跨度只有两个月,但是由于时间太过久远,但是颇费了一番心力,还好最终老师只需要每个月 10000 条左右,我赶紧停止了集群的采集,一看代理池马上欠费了。微博签到数据的采集,时间越久越难采集,看到网上有很多分享 2014 年全国微博签到数据的,我看了下其实那个只是 poi 数据,而且绝大部分的 poi 被重置了,poi 链接打不开,查无此微博。前阵子接到一个实验室老师的需求,采集五年前(2024-5=2019)过年前后的北京微博签到数据。原创 2024-07-10 00:24:58 · 796 阅读 · 6 评论 -
携程上海酒店数据采集及可视化
价格越低,消费者评分的方差就越大,1-5 分都有分布,价格越高,评分越高,几乎都在 4 分以上。我觉得这有两个原因,第一,价格高的酒店数量远远不如酒店低的数量,第二,花了 2w 块住一晚酒店,那体验能不好吗?价格多分布在区间的下行,即大部分酒店价格较低,评分则多分布在区间上行,大部分酒店评分较高,这反映了上海市酒店服务业的整体水平较高。从价格的中位数来看,只平平无奇,但是从平均价格来看,上海的酒店价格至少是我老家,湖南一个省内著名省外无名三线城市价格的 2 倍。最后,把酒店价格可视化地展示在上海地图上。原创 2024-01-12 09:54:55 · 1587 阅读 · 6 评论 -
微博评论爬虫解决 meiko 之问,S 11 冠军皮肤选猫咪还是选露露呢
S11 结束了,EDG 牛逼就完事了。作为 Meiko 十年老粉,我看到他发了这样一条微博:所以是选露露还是猫咪呢?广大网友在评论区讨论得不亦乐乎。我突然灵光一闪,可以用爬虫把这些评论抓取下来,提取每一条评论中的包含露露、猫咪等关键词,每一条评论出现一次 vote 就 + 1,然后可视化出来大家都想选啥英雄,说干就干。昨晚下班后熬夜干到快 12 点,终于 done 了。差不多把这 3 w条评论全部抓取下来了,评论数据时间是截止 2021.11.11 晚上 11 点。然后就是抽取分析统计了,核原创 2021-11-13 16:54:22 · 874 阅读 · 0 评论 -
20 w 新闻数据集分享
新闻系列的分享进入尾声了,在开启这个系列前,我说过一个目标是,让 nlper 有足够多的新闻语料数据集去训练。不知不觉中,新闻聚合网站(https://xt98.tech:9494) 自从 2021/03/28 上线以来,已经稳定运行 3 个月整了,这三个月来,澎湃新闻爬虫、腾讯新闻爬虫每天都在不辞辛劳地抓取数据并保存在阿里云服务器上,最近由于阿里云服务器快到期了,原本不到 200 一年的服务器今年续费价格快 2000 了,不打算续费了,所以想把这些保存的数据免费分享出来,算是对一直默默关注我的粉丝的小福原创 2021-07-09 09:24:57 · 3908 阅读 · 1 评论 -
新闻平台聚合之新浪新闻爬虫发布
idea of startproject对于 web 开发者而言,目前各大新闻门户网站,新浪新闻,百度新闻,腾讯新闻,澎湃新闻,头条新闻并没有提供稳定可用的 feed api。对于 nlper,缺乏足够的新闻语料数据集来供训练。对于新闻传播/社会学/心理学等从业者,缺乏获取新闻数据的简单易用途径来供分析。如果上面三点是某见识所限,其实并不存在的话,第 4 点,则是某的私心,某以为互联网的记忆太短了,热搜一浪盖过一浪,所以试图定格互联网新闻的某些瞬间,最后会以网站的形式发布出来。原创 2021-03-12 22:34:44 · 747 阅读 · 0 评论 -
像学 SQL 那样学 pandas
作为 pandas 教程的第四篇,本篇将对比 SQL 语言,学习 pandas 中各种类 SQL 操作,文章篇幅较长,可以先收藏后食用,但不可以收藏后积灰~为了方便,依然以下面这个 DataFrame 为例,其变量名为 df,设有一同样结构的 SQL 表,表名为 tb:and、or、not 和集合资格测试 in1、and需求:选择成绩大于 90 分的男生的成绩单sql 写法:select * from tb where sex="male" and grade>90pandas 写法:原创 2020-06-26 14:05:27 · 382 阅读 · 0 评论 -
数据分析利器 pandas 系列教程(三):读写文件三十六计
前面我们学完了 pandas 中最重要的两个数学结构:Series 和 DataFrame,今天来侃侃 pandas 读写文件的那些 tricks,我有十足的信心,大家看了定会有所收获。读写 csv 的正确姿势假如要保存下面这个 DataFrame保存到 csv 中,我常用的一行代码是:df.to_csv('exam_result.csv', index=False, encoding='utf-8-sig')第一个参数是保存的文件名,第二个参数是不保存 index 索引,第三个参数是指定保原创 2020-06-22 12:52:52 · 369 阅读 · 0 评论 -
数据分析利器 pandas 系列教程(二):从强大的 DataFrame
在上一篇文章 数据分析利器 pandas 系列教程(一):从 Series 说起 中:详细介绍了 pandas 基础数据结构 Series,今天说说另一种数据结构 DataFrame。dataframe 是表格型的数据结构,由一组有序的列组成,可以看成是由 Series 组成的字典,举个例子:/namesexcoursegrade0Bobmalemath99...原创 2020-02-07 18:55:20 · 755 阅读 · 0 评论 -
数据分析利器 pandas 系列教程(一):从 Series 说起
从今天开始连载数据分析利器 pandas 的系列文章,推荐 Pycharm 集成 Python3.6+;无论你是零基础小白,还是已经上手过 pandas,你都可以在本次系列中学到一些干货。摘自百度百科:pandas 是基于 numpy 的一种工具,该工具是为了解决数据分析任务而创建的。pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas 提供了大量...原创 2020-02-03 09:58:44 · 775 阅读 · 0 评论