短信垃圾信息检测与云安全多阶段认证模型研究
1. 短信垃圾信息检测
在处理短信垃圾信息检测时,为了让机器学习模型更好地处理数据,数据标签会被转换为二进制形式,因为模型通常以数字或二进制进行训练,而非原始文本。
1.1 数据准备
数据准备是整个流程的基础,具体操作步骤如下:
1. 加载并清理数据,去除标点符号和数字。
2. 将单词中的所有字母转换为小写。
3. 移除对词汇无贡献的停用词。
完成数据准备后,使用词云可以直观地展示数据中最频繁出现的单词,字体越小表示出现频率越低,字体越大则表示出现频率越高。
1.2 特征提取
特征提取是从数据中提取有用信息的过程,主要涉及以下两种技术:
- 词形还原(Lemmatisation) :将具有相似含义的单词归为一组,为单词赋予上下文,并进行词法分析。Wordnet 是一个公开的语文学数据库,涵盖 200 多种语言,提供单词之间的语言关系,是常用的词形还原技术之一。
- 词袋模型(Bag of Words, BoW) :是文本数据特征提取中最重要的技术。Count Vectorizer 创建一个矩阵,其中文本中的每个唯一单词由字段表示,每个实例由一行表示,每个单元格中的值表示该文本样本中单词的出现次数。
1.3 模型训练与测试
特征提取完成后,需要对模型进行训练和测试。数据集被划分为 75%(4,179 个实例)的训练集和 25%(1,393 个实例)的测试集。在训练和测试模型时,“Type”字段的值作为因变量 X,“
超级会员免费看
订阅专栏 解锁全文
983

被折叠的 条评论
为什么被折叠?



