文本分析中的突发检测与对数似然比应用
在日常数据处理中,我们常常会遇到事件频率发生变化的情况。例如,在电子邮件流中,突发期是指在一段时间内,人们会收到大量间隔较小的邮件;而在非突发期,收到邮件的间隔则会大很多。这种频率的变化在日常生活中很常见,就像高峰时段汽车之间的距离变化一样。
1. 基于自动机的事件流建模
Kleinberg提出了一种使用具有无限状态自动机来对事件流进行建模的方法。在自动机的每个状态下,事件以特定的速率发生。自动机具有表征信号、电子邮件或事件的慢速和快速发射速率的状态。通过状态转换,不同速率的流可以在同一系统中存在。例如,一个慢速移动的流可以通过从相应的慢速状态转换到快速状态,与快速移动的流交织在一起。
更正式地说,每个流由指数分布生成。流中的项目基于指数分布进行概率发射,使得一个项目与下一个项目之间的间隔遵循指数密度函数 ( f(x) = ae^{-ax} ),其中 ( a ) 是下一个项目到达的速率。如果自动机有两个负责以不同速率(低和高)发射项目的状态,那么每个状态分别由其自己的指数密度函数 ( a_{low} ) 和 ( a_{high} ) 建模。自动机中的状态转换概率为 ( p ),并且它以 ( 1 - p ) 的概率保持在同一状态。用这样的自动机对序列进行建模等同于根据指数密度函数确定状态序列的条件概率。最优序列倾向于最小化状态转换的次数,并且序列要与相应的间隔相匹配。转换到高频状态的成本与参数 ( \gamma ) 成正比,而转换到低频状态则不产生成本。
Kleinberg展示了他收到的电子邮件的层次结构,该结构揭示了与提案写作活动相关的密集电子邮件时期的一些突发情况。他在2002年的论文中还给出了一个例子,从1975年到2
超级会员免费看
订阅专栏 解锁全文
12

被折叠的 条评论
为什么被折叠?



