40、智能自动骗局检测系统与网页用户会话重建

echo99

于 2025-07-11 14:53:19 发布

阅读量5

点赞数

CC 4.0 BY-SA版权

分类专栏：探索KES 2009：智能信息与工程系统前沿文章标签：骗局检测神经网络 n-元语法

本文链接：https://blog.youkuaiyun.com/echo99/article/details/149375655

探索KES 2009：智能信息与工程系统前沿专栏收录该内容

43 篇文章 ¥399.00 ¥499.90

订阅专栏

超级会员免费看

智能自动骗局检测系统与网页用户会话重建

智能自动骗局检测系统

在文本处理中，较长的 n - 元语法对所属文档过于特定，不利于不同文档间的泛化，因此被排除。两个集合中这类 n - 元语法总数达 79448 个，数量过多，不适合直接作为神经网络输入，所以需要减少其数量，仅保留对文本预处理真正重要的 n - 元语法。

为实现这一目的，使用文档频率 $df_t$ （即集合中包含术语 $t$ 的文档数量）。系统采用两种不同的预处理模块：邮件预处理和特定骗局预处理，二者的区别在于重要 n - 元语法的选择不同。
- 邮件预处理 ：丢弃在骗局集合中罕见（$df_t$(hoax) < 15）或在两个集合中都很常见（$df_t$(hoax + mail) < 50）的 n - 元语法，最终得到 1369 个重要 n - 元语法（也是第一个神经网络的输入节点）。丢弃常见 n - 元语法（停用词）是因为它们无法帮助区分不同文档，而罕见 n - 元语法（区分性词汇）不利于神经网络泛化。
- 特定骗局预处理 ：丢弃在骗局集合中罕见（$df_t$(hoax) < 10）或非常常见（$df_t$(hoax) < 20）的 n - 元语法，得到 1880 个重要 n - 元语法。第二个预处理模块的阈值较低，因为第二个神经网络是分类器，需要更多罕见 n - 元语法作为输入来区分不同骗局。

对于系统中神经网络的输入值，对于传入的电子邮件，先进行文本处理的前两个步骤（归一化和分词），然后为邮件中的每个重要 n - 元语法计算其归一化词频和逆文档频率值的乘积：
[ntf_{t,d} \cdo

了解本专栏

超级会员免费看