犯罪新闻异常检测与利益相关者优先级排序研究
犯罪新闻异常检测
在犯罪新闻异常检测的研究中,为了实现检测不寻常数量犯罪新闻的目标,研究人员进行了一系列的实验和分析。
1. 数据收集与预处理
- 研究使用了2013年和2017年的书面新闻、广播新闻逐字记录和电视新闻逐字记录组成的数据集。首先,基于iMedia框架中的关键词列表收集过滤后的犯罪新闻。
- 得到的数据集包含262,000条与犯罪相关的新闻,并使用Python的nltk库进行整理。由于书面新闻、广播和电视新闻的长度不同(分别以平方厘米和秒为单位),为了使这些值具有可比性,对每个概念应用了Min - Max归一化,将表面和秒(以0 - 1范围值表示)归为一个名为“扩展”的变量。
- 接着,通过一个广泛使用的西班牙语词典计算所有数据集中积极、消极和中性词的数量,并在一个名为“情感”的新列中为每条新闻标记为积极、消极或中性。随后,对犯罪类型、媒体来源、情感和新闻等文本标签进行数值编码。最后,对代表相似概念但名称和大小不同的其他变量也进行了Min - Max归一化。预处理后,整个数据集保留了183,400条无缺失数据的新闻。
2. 异常检测方法
- 为了检测不寻常数量的犯罪新闻,使用了犯罪类型、扩展、估值、媒体来源、情感、新闻格式和日期等变量。
- 采用张量对广播、电视和书面新闻进行建模,以应用Tucker分解。使用张量的优势在于能够在识别异常新闻数量时考虑到其他丰富的变量。分解完成后,取时间维度来识别异常值,使用了两种方法:中位数法和中位数绝对偏差(MAD)法。
- 通过对2013 - 2017年中位数和MAD(按