在线事件检测与文档聚类的技术探索
1. 在线事件检测算法——DTED算法
在线事件检测在信息处理领域具有重要意义,而DTED算法为该领域带来了新的解决方案。
1.1 数据集实验结果
在不同数据集上进行实验,能更全面地评估算法性能。
- 数据集1 :其精度结果达到95.04%,F1值为90.17%。其中,凝聚层次聚类的召回率最高,但精度最差,不过其F1值与单遍算法相近,这一结果与某些以往研究不同。Cluto工具包中实现的direct - I2和rbr - H2算法在精度方面表现良好,但召回率较差。
- 数据集2 :与数据集1相比,DTED和agglo - upgma算法在数据集2上的整体结果更差。DTED算法表现最佳,略优于单遍算法和direct - I2算法。单遍算法在该数据集上的精度最高,达到97.16%,但召回率最差。
- TDT4数据集 :运行系统后得到DET曲线,在误报率为2%、漏检率为32%时,主题加权的最小归一化成本为0.418。
1.2 DTED算法关键因素
DTED算法有两个关键因素,即事件模板向量和事件 - 故事相似度函数。在传统的tf - idf加权中引入了因子CF,通过实验比较了有CF和无CF的DTED相似度函数以及传统余弦相似度函数的性能。结果表明,CF - DTED明显优于其他配置,因为事件模板向量仅由几个术语组成,而不是事件簇中所有故事的质心向量,所以余弦函数在这里并不适用。
1.3 大规模语料库构建的在线系统
为了研究
超级会员免费看
订阅专栏 解锁全文
854

被折叠的 条评论
为什么被折叠?



