基于生成模型的信息内容统计判定及广播邮件检测
在研究人与人之间的互动(如社会群体动态)时,识别重要信息和去除无用信息同样重要。垃圾邮件和广播邮件的存在会扭曲社交网络分析的通信模式,而从大量消息中区分有用信息和垃圾信息是一项具有挑战性的任务。本文提出了一种生成模型,通过信息内容因子(ICF)来衡量消息的信息价值,该方法无需检查消息内容,且在检测安然公司电子邮件中的广播邮件方面取得了94%的成功率。
1. 生成统计模型
生成模型有两个关键元素:一是给定消息ICF为b时被回复的概率;二是回复消息的ICF与父消息ICF的关系。
- ICF与回复概率 :假设ICF为1的消息,每个接收者回复的概率为1;ICF为0的消息则无回复。一般而言,ICF与获得回复的概率相关。设p∗为ICF为1时被回复的概率,根据定义p∗ = 1。对于ICF为b的根消息,其被回复的概率p = bp∗ = b。
- ICF衰减 :为了捕捉从父消息到子消息ICF的衰减,定义ICF传播函数f(b),0 < f(b) < 1。对于ICF为b的消息,回复概率p[reply] = b,回复消息的ICF为ICF[reply] = bf(b)。若用bi表示深度为i时的ICF,则有:
[
b_i =
\begin{cases}
b, & \text{if } i = 0 \
b_{i - 1}f(b_{i - 1}), & \text{if } i > 0
\end{cases}
]
深度i ≥ 1时消息的概率pi为:
[
p_i
超级会员免费看
订阅专栏 解锁全文
3109

被折叠的 条评论
为什么被折叠?



