社交媒体意见分析:基于PathMerge模型的争议检测研究
1. 研究概述
在社交媒体的海量信息中,争议检测是一项具有挑战性但又十分重要的任务。本研究主要有以下几个关键贡献:
- 构建了一个用于争议检测的中文数据集,该数据集从今日头条收集,包含511条新闻、71,579名用户和103,787条评论,每条评论都被标记为有争议或无争议。
- 提出了基于随机游走的PathMerge模型,用于评论级别的争议检测,该模型能够整合评论树中从根节点到当前节点路径上的节点信息,并进一步融合动态特征。
- 通过在今日头条数据集上的大量实验表明,时间和结构信息可以有效改善嵌入向量,在AUC和AP指标上取得更好的结果,并且该模型在不同比例的训练样本下具有较好的泛化能力。
2. 相关工作
2.1 争议检测
争议检测在网页或社交媒体上已经研究多年。早期的争议检测方法主要基于统计特征,如修订次数和用户编辑历史等,也有方法结合基于情感的特征和语义特征。现有的基于网页的工作通常利用维基百科上的争议和用户评论进行检测。
与网页不同,社交媒体的话题更加多样化,用户之间的讨论也更加激烈,这使得社交媒体上的争议检测更具挑战性。早期研究侧重于主题级别的争议检测,而近期的工作则聚焦于帖子级别的争议检测,利用语言特征,如情感和与主题相关的短语、强调特征和推特特定特征等。然而,当前帖子级别的工作存在一些局限性,如未能有效整合内容和回复结构的信息,忽略了同一主题下帖子的作用,也没有意识到主题内和主题间模式的差异。
2.2 图嵌入
图嵌入技术在网络分析中已被证明是有效的,它将节点、链接或图映射到低维密集表示,使
超级会员免费看
订阅专栏 解锁全文
3200

被折叠的 条评论
为什么被折叠?



