高质量微博帖子搜索指南
在社交媒体时代,微博平台如 Twitter 上的信息海量且繁杂。如何从众多的微博帖子(tweets)中筛选出高质量的内容,成为了一个重要的问题。本文将详细介绍一种分析和筛选高质量微博帖子的方法。
1. 相关研究回顾
近年来,Twitter 一直是研究的热点领域。以往的研究主要集中在将微博帖子按照目的分类,比如新闻、事件、观点等。例如,有的研究提出基于特征的方法将微博分为 6 类,还有的使用主题模型和监督学习为微博分配 4 个广泛的主题。然而,我们的工作聚焦于微博的质量,这是一个与预定义分类正交的新维度。
从分析微博质量的角度来看,有研究开始关注根据读者的兴趣对微博进行分类,并提出了一些潜在特征,但仅使用了超链接的存在作为分类依据。我们的工作则更注重基于质量的广义分类和排名,研究了更多的特征,并提出了新的特征,这些特征在性能上优于仅使用链接的方法。此外,在有效微博排名方面,早期的算法尝试要么没有提供全面的评估,要么缺乏令人信服的实证结果。
2. 微博质量分析
2.1 基础知识
Twitter 是一个社交网络和微博平台,注册用户可以发布长度不超过 140 个字符的短消息(tweets)。这些消息几乎实时发布并可搜索,用户可以通过网页界面、短信或各种第三方应用程序发布。目前,Twitter 拥有超过 3 亿注册用户,每天发布超过 2 亿条微博,提交约 16 亿次搜索查询。
Twitter 的社交网络功能包括关注其他用户的帖子、转发他人的帖子(以“RT”前缀表示)和在帖子中提及其他用户(以“@”符号后跟用户名表示)。用户还可以在微博中使用标签(以“#”符号开头)来表明讨论的主题
超级会员免费看
订阅专栏 解锁全文
1477

被折叠的 条评论
为什么被折叠?



