线上言论的影响力:推特数据的多元应用
1. 数据来源与规模
社交媒体的兴起为我们提供了海量的数据,其中推特尤为突出。在2011年初,推特每天发布的推文就超过1亿条,如此庞大的样本量为数据分析提供了坚实基础。
社交媒体的发展历程也十分显著。1999年,“网络日志”一词演变成“博客”。到2003年秋季,博客数量达到50万;随后三年,这一数字增长了100倍。2006年推特创立,“微博”的出现为博客发展带来新的增长动力。推特借助最初用于手机短信的短消息服务(SMS),发布长度不超过140个字符的“推文”,使得通过手机发布博客成为可能。到2009年1月,推文数量超过了其他所有博客的总和;截至2010年,推特上的帖子数量是其他所有博客总和的50多倍。Techcrunch.com的数据显示,2007年推特每天约有5000条推文,此后每年增长近30倍。此外,像脸书上的状态更新、易贝或亚马逊上的产品评论等,都是我们线上言论的记录。
推特90%的推文是公开的,并且在数据开放分析方面处于领先地位。它拥有多个应用程序编程接口(API),如Firehose API能让开发者实时获取每天超过1亿条的推文。这些数据极具价值,因为推文中包含着重要信息,19%的推文会提及某个品牌,甚至还能预测经济情况。
2. 推文计数预测电影票房
分析海量博客文章中整体热度的一个简单方法是统计特定词汇的使用频率。2009年11月起的四个月里,加州帕洛阿尔托惠普实验室的Sitaram Asur和Bernardo Huberman分析了大量提及24部不同电影的推文,目的是探究社交媒体能否预测电影票房。
Huberman此前在社交网络领域发表过多篇论文,但多是理论研究,他研究了观点在人群中的传播以及公
超级会员免费看
订阅专栏 解锁全文
4247

被折叠的 条评论
为什么被折叠?



