8、数据处理、特征提取与推荐引擎构建

反内卷战士508

于 2025-09-16 16:19:30 发布

阅读量22

点赞数

CC 4.0 BY-SA版权

分类专栏： Spark机器学习实战指南文章标签：数据处理特征提取文本处理

本文链接：https://blog.youkuaiyun.com/nut55/article/details/152443067

Spark机器学习实战指南专栏收录该内容

25 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

数据处理、特征提取与推荐引擎构建

1. 数据转换与特征提取

在数据处理过程中，我们常常需要对原始数据进行转换，使其更适合机器学习模型。例如，对于时间戳变量，它可能有数千个不同的值，原始形式对模型可能用处不大。我们可以将其转换为小时（取值 24 个），再转换为一天中的时间段（取值 5 个）。转换后，我们就得到了一个分类特征，此时可以使用之前提到的 1-of-k 编码方法生成二进制特征向量。

2. 文本特征处理

文本特征在某种程度上属于分类特征和派生特征。以电影描述为例，原始文本不能直接作为分类特征使用，因为文本中单词的组合几乎是无限的，模型很难学习到有效的信息。因此，我们需要将原始文本转换为更适合机器学习的形式。常见的文本处理方法是词袋模型（Bag-of-Words），其处理流程如下：
1. 分词（Tokenization） ：将文本分割成一组标记（通常是单词、数字等）。例如，简单的空格分词，按空格分割文本，并可能去除标点符号和非字母数字字符。
2. 停用词去除（Stop word removal） ：去除常见的停用词，如“the”、“and”、“but”等。
3. 词干提取（Stemming） ：将单词还原为其基本形式或词干。例如，复数形式变为单数形式（如“dogs”变为“dog”）。
4. 向量化（Vectorization） ：将处理后的词转换为向量表示。最简单的形式是二进制向量表示，若词在文本中存在则赋值为 1，否则为 0。这与之前的 1-of-k 编码类似，需要一个词字典将词映射