基于社交网络的情绪化分析I
By 白熊花田(http://blog.youkuaiyun.com/whiterbear) 转载需注明出处,谢谢。
之前说要进行微博的数据抓取并进行相关的分析,这里就是了。
题目来源
这是我的毕设题目,题目来源:汪顺平博客。在开始毕设时,我联系过这位博主,当时他是已经下载完数据准备分析了,后面一直没有联系了,参考了他数据下载的代码。我从三月末开始毕设,六月初结束,共两个月多点时间。这里将按数据的下载,数据处理,数据的情感分析的顺序来简要记录下我的毕设。
意义
使用数据分析的方法,从数学的角度去研究在社交网络上人们表达情绪的倾向。
数据的采集
这一部分是前期的重点,没有数据如何进行数据分析?
数据对象的选择
数据对象的选择,人人网已经没落,而且非好友无法访问,放弃;微信朋友圈也是无法访问非好友的数据,它是私密性的,放弃;新浪微博,公开访问,网上教程众多,选择。在确定数据对象为新浪微博后,选择了学校这个群体。这个群体有着很多优势:
- 大学学生多半都使用微博
- 大学学生的微博多半不是广告
基于此,我选择了五所高校,分别是大连理工大学,清华大学,北京大学,南京大学,华东政法大学,这五所学校南北有别,文理也有差异。
数据采集的思路和流程
数据采集的思路是,先手动给定几个一个学校入口的微博账号,通过这些微博账号下载他们的关注列表,之后下载关注列表里的该学校

本文介绍了作者的毕设项目——基于社交网络的情绪化分析,特别是针对微博数据的采集过程。作者选择了五所高校的微博用户作为数据对象,通过爬虫抓取关注列表和微博内容,总计获取约25万条微博。在实践中,作者强调了不要过早设计数据库和聚焦问题核心的重要性。
最低0.47元/天 解锁文章
2715

被折叠的 条评论
为什么被折叠?



