TensorFlow深度学习实战——利用词嵌入实现垃圾邮件检测

0. 前言

由于大型语料库生成的各种强大嵌入的广泛适用性,使用这些嵌入将文本输入转换为机器学习模型的输入逐渐变成普遍操作。文本可以视为一系列词元 (tokens),嵌入能够将每个 token 转换为一个密集的固定维度向量。每个 token 都替换为向量,从而将文本序列转换为样本矩阵,每个样本都有固定数量的特征,对应于嵌入的维度。
样本矩阵可以直接用作标准机器学习程序的输入,在本节中,我们将介绍如何在一维卷积神经网络 (Convolutional Neural Network, CNN) 中使用该矩阵,实现垃圾邮件检测器将短信 (Short Message Service, SMS) 或文本消息分类为非垃圾短信 (ham) 或垃圾短信 (spam)。

1. 构建垃圾邮件检测模型

1.1 模型分析

在本节中,我们首先将从零开始学习构建用于垃圾邮件检测任务的嵌入。接下来,介绍如何使用预训练嵌入,类似于计算机视觉中的迁移学习过程。最后,学习如何结合这两种方法,从预训练嵌入开始,网络以此为起点学习自定义嵌入,此过程类似于计算机视觉中的微调。

(1) 首先,导入所需库,并定义超参数:

<
评论 43
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

盼小辉丶

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值