微博高质量内容搜索与热门话题推荐
在如今信息爆炸的时代,社交媒体上的内容数量庞大,质量却参差不齐。如何从海量的微博内容中筛选出高质量的帖子,以及如何快速找到当前的热门话题文章,成为了提升用户体验的关键问题。本文将围绕这两个方面展开探讨,介绍相关的评估方法、特征选择以及推荐系统。
微博高质量内容搜索
数据收集与标注
为了研究微博内容质量,我们从不同用户群体收集数据。选取了两类用户:
- 普通用户 :从提供的 Twitter 数据集中随机选取 50 个用户,代表普通大众。
- 有影响力的用户 :从知名网站挑选 50 个有影响力的用户,这些用户来自技术、商业、政治、名人及行动主义 5 个不同类别,以避免主题偏差。使用 Twitter 的 REST API 抓取他们的推文。
由于缺乏公开可用的带质量判断的 Twitter 数据集,我们利用 Amazon Mechanical Turk 众包服务手动标注数据。将收集到的推文随机呈现给审阅者,让他们为每条推文给出 1 - 5 的评分,1 代表低质量,5 代表高质量。为提高标注的客观性,从三个不同审阅者处收集评分并取平均值。
标注完成后,分析了不同类型推文的质量分布,结果如下:
| 推文类型 | 高质量推文比例 |
| ---- | ---- |
| 有影响力的用户 | 较高 |
| 随机用户 | 较低 |
| 转发推文 | 略高于普通推文 |
| 回复推文 | 大多质量较低 |
从这些结果可以看出,有影响力的用户发布高质量推文的比例较大,
超级会员免费看
订阅专栏 解锁全文
7万+

被折叠的 条评论
为什么被折叠?



