86、基于联合字符 - 词特征的中文垃圾信息鲁棒检测及局域网域名解析方法

基于ALBERT与胶囊网络的中文垃圾信息检测

基于联合字符 - 词特征的中文垃圾信息鲁棒检测及局域网域名解析方法

中文垃圾信息鲁棒检测方法
  1. 研究背景
    • 深度学习推动了自然语言处理(NLP)的发展,在文本分类等下游任务中取得显著成果。然而,垃圾信息如广告短信和钓鱼邮件常含对抗性扰动,能绕过传统检测系统,干扰网络通信,影响公民财产、隐私和公共安全。
    • 此前研究主要集中在英文垃圾信息检测,中文领域面临更严峻挑战,中国是全球最大的垃圾信息来源地。
  2. 主要贡献
    • 提出“ALBERT - 胶囊网络”中文垃圾信息检测模型,可同时挖掘文本的字符级和词级特征,避免单一文本特征导致的信息丢失问题,引入多头结构确保网络中字符分支和词分支能有效训练。
    • 利用常见的对抗方法(如传统字符转换、拼音重写和词语拆分)扩展训练集,基于这些方法训练模型以提高鲁棒性。
    • 在公开可用的垃圾信息数据集上进行训练和测试,并与经典NLP模型比较,结果显示该模型在垃圾短信检测和垃圾邮件检测中的准确率分别达99.45%和99.55%,经对抗训练后能有效抵御对抗性扰动。
  3. 模型结构
    • 双输入 :中文文本分类模型可分为基于字符特征和基于词特征的模型。字符级模型直接编码处理汉字,不受词嵌入词汇量限制,但可能忽略文本语法和语义;词级模型先对中文文本进行分词,再用词嵌入模型训练更有意义的词向量,但
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值