新闻语料库中的聚类分析
1. 背景
在新闻领域中,了解新闻的传播流动以及不同主题报道的集中情况是一项重要工作。我们的长期目标是对挪威在线报纸随时间的新闻流动进行建模,并可视化不同主题报道的集中程度。其中一个关键问题是新闻生产中存在多少重叠和循环。
自2006年起,挪威报纸语料库开始下载8家最大在线报纸的头版,并以HTML格式存储。我们从中提取了2009年12月7日至18日每天的10条头条新闻作为样本语料库进行实验。这960篇文章被媒体学者根据特定类别手动编码,每篇文章都有一个由五个类别组成的标签来描述其内容,例如“国际 - 经济 - 金融危机 - 债务 - 迪拜”。
为了进一步处理数据,我们将单词还原为基本形式,并只保留名词、动词、形容词和副词。具体操作步骤如下:
1. 使用奥斯陆 - 卑尔根标注器为文本添加句法信息。
2. 过滤文档,只保留所需形式的所需单词。
为了检测新闻的重用和重叠,我们探索了将聚类技术应用于新闻语料库。Zamir和Etzioni证明可以通过对文档的短摘录(片段)应用后缀树方法进行聚类,这种方法在新闻领域很有吸引力,因为新闻文章的头版内容(如标题、说明和引言)可作为片段使用。而且他们报告该方法优于其他一些算法。不过,Eissen等人指出该技术存在一些弱点,但在处理较短文本时影响不大。
我们之前已经对后缀树聚类的初始领域进行了探索,并研究了改进该技术的潜力。现在,我们将重点放在挪威报纸语料库上,对该技术进行适应性修改以提高其性能。
2. 后缀树聚类
后缀树聚类的核心是紧凑字典树(compact trie)这种数据结构。字典树是一种用于存储令牌序列的树,每条弧
新闻语料库聚类分析的改进方法
超级会员免费看
订阅专栏 解锁全文
1496

被折叠的 条评论
为什么被折叠?



