新闻主题建模与用户反馈研究的全周期方法
1. 引言
社交媒体在信息传播中扮演着越来越重要的角色,年轻一代的新闻消费者更多地通过社交媒体新闻流获取新闻。这使得社交媒体聚合了新闻内容和受众反馈的数字痕迹,为媒体专业人士和社会科学家提供了直接建立新闻内容特征与受众反应之间关系的机会。然而,目前研究界缺乏能让社会科学家进行全周期研究的方法。
在这项研究中,我们开发了一种全周期方法,将一系列方法步骤有序排列。该方法旨在解决将新闻内容与受众反馈相关联的研究问题,涵盖从确定新闻内容特征到测量受众行为的整个过程。
2. 主题建模及选择最优主题数量的方法
主题建模(TM)是聚类分析的扩展,是一组数学算法,可同时对文本(文档)和术语进行模糊共聚类。其输入是词 - 文档矩阵,输出包括词 - 主题矩阵和文档 - 主题矩阵。
选择最优主题数量是主题建模的关键问题,目前有多种方法,但都存在局限性:
- Cao 等人的方法 :将主题视为语义聚类,使用余弦相似度测量来确定最优主题数量,即平均余弦相似度最小的情况。
- 基于 Kullback - Leibler(KL)散度的方法 :通过 SVD 分解矩阵,计算奇异值向量的 KL 散度,最优主题数量对应两个矩阵奇异值数量相同的情况。
- 分层狄利克雷过程(HDP) :构建主题层次树,但需要用户预先定义树的深度,未真正解决主题数量问题。
我们采用基于寻找自由能最小值或 Rényi 熵最小值的方法来确定最优主题数量。该方法将文档和词的集合视为介观信息统计系统,通过
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



