智能自动骗局检测系统与网页用户会话重建
智能自动骗局检测系统
在文本处理中,较长的 n - 元语法对所属文档过于特定,不利于不同文档间的泛化,因此被排除。两个集合中这类 n - 元语法总数达 79448 个,数量过多,不适合直接作为神经网络输入,所以需要减少其数量,仅保留对文本预处理真正重要的 n - 元语法。
为实现这一目的,使用文档频率 $df_t$ (即集合中包含术语 $t$ 的文档数量)。系统采用两种不同的预处理模块:邮件预处理和特定骗局预处理,二者的区别在于重要 n - 元语法的选择不同。
- 邮件预处理 :丢弃在骗局集合中罕见($df_t$(hoax) < 15)或在两个集合中都很常见($df_t$(hoax + mail) < 50)的 n - 元语法,最终得到 1369 个重要 n - 元语法(也是第一个神经网络的输入节点)。丢弃常见 n - 元语法(停用词)是因为它们无法帮助区分不同文档,而罕见 n - 元语法(区分性词汇)不利于神经网络泛化。
- 特定骗局预处理 :丢弃在骗局集合中罕见($df_t$(hoax) < 10)或非常常见($df_t$(hoax) < 20)的 n - 元语法,得到 1880 个重要 n - 元语法。第二个预处理模块的阈值较低,因为第二个神经网络是分类器,需要更多罕见 n - 元语法作为输入来区分不同骗局。
对于系统中神经网络的输入值,对于传入的电子邮件,先进行文本处理的前两个步骤(归一化和分词),然后为邮件中的每个重要 n - 元语法计算其归一化词频和逆文档频率值的乘积:
[ntf_{t,d} \cdo