基于联合字符 - 词特征的中文垃圾信息鲁棒检测及局域网域名解析方法
中文垃圾信息鲁棒检测方法
- 研究背景
- 深度学习推动了自然语言处理(NLP)的发展,在文本分类等下游任务中取得显著成果。然而,垃圾信息如广告短信和钓鱼邮件常含对抗性扰动,能绕过传统检测系统,干扰网络通信,影响公民财产、隐私和公共安全。
- 此前研究主要集中在英文垃圾信息检测,中文领域面临更严峻挑战,中国是全球最大的垃圾信息来源地。
- 主要贡献
- 提出“ALBERT - 胶囊网络”中文垃圾信息检测模型,可同时挖掘文本的字符级和词级特征,避免单一文本特征导致的信息丢失问题,引入多头结构确保网络中字符分支和词分支能有效训练。
- 利用常见的对抗方法(如传统字符转换、拼音重写和词语拆分)扩展训练集,基于这些方法训练模型以提高鲁棒性。
- 在公开可用的垃圾信息数据集上进行训练和测试,并与经典NLP模型比较,结果显示该模型在垃圾短信检测和垃圾邮件检测中的准确率分别达99.45%和99.55%,经对抗训练后能有效抵御对抗性扰动。
- 模型结构
- 双输入 :中文文本分类模型可分为基于字符特征和基于词特征的模型。字符级模型直接编码处理汉字,不受词嵌入词汇量限制,但可能忽略文本语法和语义;词级模型先对中文文本进行分词,再用词嵌入模型训练更有意义的词向量,但
基于ALBERT与胶囊网络的中文垃圾信息检测
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



