德拉维达语垃圾短信分类中手工特征的评估
在当今数字化时代,虚假信息传播愈发猖獗,垃圾短信成为了人们日常生活中的一大困扰。这些垃圾短信不仅会干扰人们的正常生活,还可能导致用户遭受经济损失。因此,如何有效地识别和过滤垃圾短信成为了一个重要的研究课题。本文将探讨一种针对德拉维达语(如泰米尔语、卡纳达语、泰卢固语和马拉雅拉姆语)垃圾短信分类的方法,通过提取重要的手工特征并使用机器学习算法进行分类。
1. 研究背景
随着互联网服务的普及,数字使用范围不断扩大。然而,一些不法分子利用这一机会,向用户发送欺诈性的短信或电子邮件。用户在购买产品、提供反馈或在社交媒体上分享个人信息时,个人信息可能会被黑客获取,从而收到各种垃圾短信。这些短信可能包含链接,诱导用户点击并分享个人隐私信息,导致银行账户被盗刷等严重后果。
据统计,新冠疫情之后,垃圾短信的数量增加了 11%,用户对垃圾短信的投诉增加了 146%。目前,大多数垃圾短信过滤技术仅适用于英语文本,而黑客为了获取用户的信任,会使用地区语言发送短信。因此,有必要开发一种适用于非英语语言的垃圾短信过滤技术。
2. 相关研究
目前,短信垃圾检测方法主要分为基于特征工程和基于分类的方法。
- 基于特征工程的垃圾检测 :许多研究利用自然语言处理(NLP)技术提取有价值的特征。例如,Agarwal 等人使用 TF-IDF 等方法从印度英语垃圾短信中提取特征;Shashank 等人使用 RNN 开发了多语言短信垃圾检测模型,在多语言组合数据集上取得了 96.8% 的准确率。
- 预训练模型的多语言垃圾检测 :一些研究使用预
超级会员免费看
订阅专栏 解锁全文
1084

被折叠的 条评论
为什么被折叠?



