社交媒体文本文件信任量化的通用框架
1. 引言
社交媒体正以每天新增数百万文档的速度迅猛发展。这些文档形式多样,包括Facebook帖子、推文、博客、评论甚至视频等。其中很大一部分文档具有实用性,是进行情感分析、细分分析等各种社交媒体分析以获取知识的优质来源。
然而,由于信息海量,区分好坏文档变得至关重要,因为这些文档若不手动阅读,很难判断其价值。在当前的社交媒体分析中,文档通常是单独输入的,文档之间缺乏关联,我们只能了解单个文档的信息,却无法判断其可靠性,也就是“信任度”。目前,数据的信任度未知,也没有快速方法来判断文档是否可信。
信任挖掘的需求源于对数据理解得越好,分析结果就越准确。在将文档用于社交媒体分析之前,为数据集分配信任度,过滤掉低信任度文档,有助于提高分析质量。此外,社交媒体存在大量垃圾信息,文档独立处理导致缺乏上下文,难以去除噪声。例如,在不了解上下文时,很难判断一篇评论是否值得关注;即使知道上下文,也难以区分文本相同但链接不同的推文。通过信任挖掘可以去除恶意文档,提高信噪比,使分析和可视化更可靠。
2. 相关工作
早期社交媒体数据的信任挖掘研究主要集中在具有明确信任关系的网络。Golbeck等人提出了一种基于本体信任规范的多维网络社交媒体分析方法;Guha等人开发了信任和不信任传播模型,但这些方法仅依赖信任网络结构,缺乏上下文和内容信息,准确性难以保证。
为解决这一问题,Christian Bizer等人提出结合声誉、上下文和内容的信任机制来构建信任架构。Agichtein等人提出了一种融合不同信息源证据的分类框架;Blumenstock以文章字数衡量维基百科文章质量;Zolfaghar等人构建了包
超级会员免费看
订阅专栏 解锁全文
824

被折叠的 条评论
为什么被折叠?



