基于2 - PS的关联文本分类与用户命令入侵检测方法
在当今的信息时代,文本分类和系统安全是两个重要的研究领域。文本分类有助于高效地组织和检索信息,而入侵检测则保障了计算机系统和数据的安全。本文将介绍一种基于2 - PS的关联文本分类方法以及通过分析用户命令进行入侵检测的技术。
基于2 - PS的关联文本分类
局部剪枝阶段
在进行文本分类前,需要对规则进行处理。首先给出几个重要定义:
- 定义1 :对于文档级频繁规则r,其前件为(i1, i2…im),若在文档d的至少一个句子中出现了(i1, i2…im)(顺序可忽略),则称r满足句子级约束,为r的有效出现。
- 定义2 :若规则r在不同训练文档中的有效出现满足用户指定的句子级最小支持度,则r为句子级频繁规则(SFR)。
局部剪枝按类别进行,统计类别C的文档级频繁规则的有效出现次数,将有效出现次数低于句子级最小支持度的规则剪去。剪枝后,规则数量大幅减少,且剩余规则语义更明确,原因在于文档长度通常远大于句子长度,规则成为文档频繁规则的可能性大于成为句子频繁规则的可能性,并且同一句子中的词在语义上比同一文档中的词更接近。
全局选择阶段
在剪枝阶段引入句子级约束后,仅依据规则的有效出现频率评估规则,未考虑规则的准确性。这里用置信度来衡量规则的准确性,定义如下:
- 定义3 :给定训练集D和类别C,设r为C的句子级频繁规则,Dr={d| r ⊆s, s⊆d ,d∈D} ,Drc={ d | r ⊆s, s⊆d, d∈D且d标记为C
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



