开始学习数据挖掘基础课程,配合课堂,我决定爬取知乎的数据作为课下练习。
数据获取
数据获取有四种典型的途径:
- 公司内部数据库(系统)数据;
- 爬虫获取;
- 大公司提供的API接口:如中国气象局公开的API接口;
- 大公司公开的真实的、历史的、离线的数据。
作为一介草民,我选择亲自爬取的方法,给数据清洗留出空间。
数据集说明
属性列:id | 标题 | 回答数 | 关注数 | 浏览数 | 标签
※ 其中,标签用#隔开,标题由半角" "引用
数据清洗
- 去除冗余:id相同
- 补齐空值(使用$NONE表示):标签缺少、标签为“「未归类」话题”
- 解决不一致性
- 处理不正确数据
- 归一化处理
数据挖掘
以下是现在能想到的主题:
* 有哪些现存标签
* 数据中心趋势
> 平均回答数、最大回答数、最小回答数
> 平均关注数、最大关注数、最小关注数
> 平均浏览数、最大浏览数、最小浏览数
* 最热问题
* 最热话题
* 哪些话题同属一个主题(本质上是一致的)
* 哪些标签是相似的
知乎问题页中的数值数据较少,初步想法在文本分析方向多做点功课。
如果大家有什么想法,请留言告诉我,谢谢啦!