【数据挖掘实践初步·以知乎数据为例】数据挖掘计划

本文分享了作者从知乎爬取数据的过程,包括数据获取、清洗及初步的挖掘思路,探讨了如何通过数据挖掘理解知乎社区的话题趋势和热门问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

开始学习数据挖掘基础课程,配合课堂,我决定爬取知乎的数据作为课下练习。

数据获取

数据获取有四种典型的途径:

  • 公司内部数据库(系统)数据;
  • 爬虫获取;
  • 大公司提供的API接口:如中国气象局公开的API接口;
  • 大公司公开的真实的、历史的、离线的数据。

作为一介草民,我选择亲自爬取的方法,给数据清洗留出空间。

数据集说明

属性列:id |  标题 | 回答数 | 关注数 | 浏览数 | 标签

※ 其中,标签用#隔开,标题由半角" "引用

数据清洗

  • 去除冗余:id相同
  • 补齐空值(使用$NONE表示):标签缺少、标签为“「未归类」话题”    
  • 解决不一致性
  • 处理不正确数据
  • 归一化处理

数据挖掘

以下是现在能想到的主题:

*    有哪些现存标签
*    数据中心趋势
    >    平均回答数、最大回答数、最小回答数
    >    平均关注数、最大关注数、最小关注数
    >    平均浏览数、最大浏览数、最小浏览数
*    最热问题
*    最热话题
*    哪些话题同属一个主题(本质上是一致的)
*    哪些标签是相似的

知乎问题页中的数值数据较少,初步想法在文本分析方向多做点功课。

如果大家有什么想法,请留言告诉我,谢谢啦!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值