Rumor analysis framework in social media 社会媒体中的谣言分析框架(IEEE2011)
文章提出的框架阐明了社会媒体中的话题,可视化时间序列变量上的话题结构。然后提取谣言候选,从其他媒体比如电视节目、报纸等寻找相关信息来证实谣言候选的可信度。通过这一框架,可以显示潜在谣言。
在谣言信息出现之前,没有像新闻或电视节目的可信信息源。文章提出的框架,没有以特定的商品为目标,不需要特定的本体。关注于话题问题,关注于词的共现,可视化话题问题和人们在社会媒体的话题之间无法预料的关系,通过寻找其他主要媒体的相关信息验证话题可信度,检测谣言信息。
框架由以下六步组成:1.爬虫。2.语言处理。3.图转换。4.可视化。5.图编辑距离计算。6.谣言信息检测。
- 语言处理
使用形态学分析从文档中提取关键词:名词,动词,形容词和副词,然后计算单个关键词的得分。至于得分计算方法,使用剩余IDF(RIDF),隐形语义分析(LSA)和词项-逆文档频率(tf-idf)。根据观察RIDF提示了文档内容,适合提取关键词。 - 图转换
该步的输入是上一步的输出,是一个信息id和带高分的关键词。这一步构建有向图展示谣言信息结构。使用参考文献中的概念图,表示文档集出现的关键词间的相关上位关系。定义v和u的相关系数:r(v,u)=df(u*v,X)/df(v,x),U是全体目标文档的集合,X是U的一个子集,u和v是关键词,df(u,X)代表X中包含关键词u的文档数,df(u*v,X)代表X中包含关键词u和v的文档数。如果r(v,u)>0.5并且df(u,X)>df(v,X),则定义u从文档频率的角度看比v大。上下位关系决定了特征词的结果次序,可以形成有向无环图。通过把高频率的词放在左边,低频率的词放在右边可视化概念图。在概念图中,