7、垃圾邮件还是正常邮件：文本分类的探索与实践

最新推荐文章于 2025-10-12 16:10:47 发布

spice

最新推荐文章于 2025-10-12 16:10:47 发布

阅读量25

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习与F#编程实战文章标签：垃圾邮件分类文本分类贝叶斯定理

本文链接：https://blog.youkuaiyun.com/spice/article/details/150753548

机器学习与F#编程实战专栏收录该内容

32 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

垃圾邮件还是正常邮件：文本分类的探索与实践

1. 数据加载提示

在处理数据集时，使用 File.ReadAllLines 一次性将数据集内容加载到内存中并非总是最佳选择。这种方式会把所有数据加载到数组中，然后还需创建另一个数组来存储 Array.map 转换的结果。对于包含约 5000 行的小型数据集，这种方法可行，但处理大型数据集时，可使用流式版本（如 System.IO.StreamReader.ReadLine() ）逐行将数据集加载到内存。

2. 以单个单词为线索进行分类

当我们拥有数据后，就可以开始分析。目标是区分垃圾邮件（Spam）和正常邮件（Ham），但与数字识别不同，我们还没有明确的特征集，仅有的是原始的短信文本。不过，文本中蕴含着大量可利用的信息，我们需要将这些字符串转换为可处理的特征。

通过观察数据集，会发现垃圾邮件和正常邮件有所不同。例如，“FREE” 这个单词在垃圾邮件中较早出现，而在正常邮件中很少出现。我们可以通过以下 F# 代码来验证这个直觉：

let spamWithFREE =
    dataset
    |> Array.filter (fun (docType,_) -> docType = Spam)
    |> Array.filter (fun (_,sms) -> sms.Contains("FREE"))
    |> Array.length

在 F# Interac