短信垃圾文本分类的机器学习方法
1. 引言
近年来,手机市场发展迅速,手机和互联网用户数量的增加使得短信和电子邮件的使用量大幅上升。短信服务(SMS)已成为一个价值数百万美元的商业产业。然而,营销公司和诈骗分子利用这些通信方式发送大量垃圾信息,给用户带来了诸多困扰。
垃圾短信不仅用于产品和服务的推广,还可能被用于诈骗活动,如诱导用户参与抽奖、提供现金返还等,以获取用户的银行账户信息。此外,垃圾短信还可能导致手机感染恶意软件,威胁用户的隐私和安全。因此,准确检测和分类垃圾短信对于保护用户免受此类陷阱的侵害以及防止身份盗窃至关重要。
过去,垃圾邮件过滤器在一定程度上解决了垃圾短信检测问题,但仍存在分类不准确的情况。传统的分类方法,如决策树、朴素贝叶斯和随机森林算法,虽然有较多的研究文献,但它们存在耗时的问题,并且仅基于垃圾词汇的频率进行过滤,而不考虑消息的上下文。同时,现代的深度学习方法,如循环神经网络(RNN)和卷积神经网络(CNN),在垃圾短信分类中的应用研究相对较少。
本项目使用的数据集来自Kaggle,由AI团队上传,包含5572条非空记录,分为“消息”和“类别(垃圾或正常)”两列。其中,86.6%的消息为正常消息,13.4%为垃圾消息,数据集存在不平衡的情况。
2. 相关工作
为了解决垃圾短信问题,许多研究人员致力于寻找更有效、准确的算法。常见的分类算法包括朴素贝叶斯、逻辑回归、支持向量机(SVM)、长短期记忆网络(LSTM)和卷积神经网络(CNN)。以下是一些相关研究的概述:
|研究论文|使用方法|准确率|特点|
| ---- | ---- | ---- | ---- |
|“S
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



