21、文本数据处理与特征提取-优快云博客

本文链接：https://blog.youkuaiyun.com/nut55/article/details/152443252

文本数据处理与特征提取

1. TF-IDF 原理

TF-IDF（词频 - 逆文档频率）是一种常用的文本特征加权方法。其中，$tf(t,d)$ 表示词项 $t$ 在文档 $d$ 中出现的频率，$idf(t)$ 是词项 $t$ 在语料库中的逆文档频率，其计算公式为：
$idf(t) = log(N / d)$
这里，$N$ 是文档的总数，$d$ 是包含词项 $t$ 的文档数量。

TF-IDF 的计算方式意味着在文档中多次出现的词项在向量表示中会获得较高的权重，相对于那些在文档中出现次数较少的词项。然而，逆文档频率的归一化作用会降低在所有文档中非常常见的词项的权重。最终结果是，真正罕见或重要的词项应该被赋予更高的权重，而更常见的词项（假设其重要性较低）在权重方面的影响应该较小。

2. 特征哈希技术

2.1 传统编码方法的局限性

在处理文本和分类数据集时，特征可能有许多唯一值（通常有数百万个值），传统上我们常使用 1-of-K 编码方法处理分类特征。但这种方法简单有效，在面对极高维数据时会出现问题。构建和使用 1-of-K 特征编码需要维护每个可能的特征值到向量索引的映射，创建映射本身需要至少对数据集进行一次额外遍历，并且在并行场景中实现起来较为棘手。

2.2 特征哈希的工作原理

特征哈希通过使用哈希函数将特征值映射为一个数字（通常是整数值），并将这个哈希值作为特征向量的索引。例如，假设美国地理位置这个分类特征的哈希值是 342，我们将使用这个哈希值作为向量索引，该索引处的值设为 1.0 以表示美国这个特征的存在。所使用的哈希函数必须是一致的，即对于给定的输入，每次都返回相同的