TensorFlow深度学习实战——利用词嵌入实现垃圾邮件检测
0. 前言
由于大型语料库生成的各种强大嵌入的广泛适用性,使用这些嵌入将文本输入转换为机器学习模型的输入逐渐变成普遍操作。文本可以视为一系列词元 (tokens
),嵌入能够将每个 token
转换为一个密集的固定维度向量。每个 token
都替换为向量,从而将文本序列转换为样本矩阵,每个样本都有固定数量的特征,对应于嵌入的维度。
样本矩阵可以直接用作标准机器学习程序的输入,在本节中,我们将介绍如何在一维卷积神经网络 (Convolutional Neural Network
, CNN
) 中使用该矩阵,实现垃圾邮件检测器将短信 (Short Message Service
, SMS
) 或文本消息分类为非垃圾短信 (ham
) 或垃圾短信 (spam
)。
1. 构建垃圾邮件检测模型
1.1 模型分析
在本节中,我们首先将从零开始学习构建用于垃圾邮件检测任务的嵌入。接下来,介绍如何使用预训练嵌入,类似于计算机视觉中的迁移学习过程。最后,学习如何结合这两种方法,从预训练嵌入开始,网络以此为起点学习自定义嵌入,此过程类似于计算机视觉中的微调。
(1) 首先,导入所需库,并定义超参数:
<