40、智能自动骗局检测系统与网页用户会话重建

智能自动骗局检测系统与网页用户会话重建

智能自动骗局检测系统

在文本处理中,较长的 n - 元语法对所属文档过于特定,不利于不同文档间的泛化,因此被排除。两个集合中这类 n - 元语法总数达 79448 个,数量过多,不适合直接作为神经网络输入,所以需要减少其数量,仅保留对文本预处理真正重要的 n - 元语法。

为实现这一目的,使用文档频率 $df_t$ (即集合中包含术语 $t$ 的文档数量)。系统采用两种不同的预处理模块:邮件预处理和特定骗局预处理,二者的区别在于重要 n - 元语法的选择不同。
- 邮件预处理 :丢弃在骗局集合中罕见($df_t$(hoax) < 15)或在两个集合中都很常见($df_t$(hoax + mail) < 50)的 n - 元语法,最终得到 1369 个重要 n - 元语法(也是第一个神经网络的输入节点)。丢弃常见 n - 元语法(停用词)是因为它们无法帮助区分不同文档,而罕见 n - 元语法(区分性词汇)不利于神经网络泛化。
- 特定骗局预处理 :丢弃在骗局集合中罕见($df_t$(hoax) < 10)或非常常见($df_t$(hoax) < 20)的 n - 元语法,得到 1880 个重要 n - 元语法。第二个预处理模块的阈值较低,因为第二个神经网络是分类器,需要更多罕见 n - 元语法作为输入来区分不同骗局。

对于系统中神经网络的输入值,对于传入的电子邮件,先进行文本处理的前两个步骤(归一化和分词),然后为邮件中的每个重要 n - 元语法计算其归一化词频和逆文档频率值的乘积:
[ntf_{t,d} \cdo

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值