6、数据特征提取与处理：从理论到实践-优快云博客

本文链接：https://blog.youkuaiyun.com/work3/article/details/151235571

数据特征提取与处理：从理论到实践

1. 数据预处理与非结构化数据添加

在数据处理过程中，我们常常需要对数据进行预处理。例如，对数据中的负值进行处理。操作步骤如下：
1. 右键点击替换节点，选择运行。运行后，数据训练分区中的负值将被替换为零。
2. 关闭替换节点的结果窗口。

在商业场景中，非结构化的自由文本数据十分常见，像调查结果、呼叫中心日志、产品评论、社交媒体动态、博客以及客户反馈等。这些文本数据包含了结构化数据中难以获取的、对预测建模结果有用的信息。因此，分析这些综合文本数据源并将其与结构化数据结合使用是非常有价值的。据估计，如今组织生成和存储的数据中，高达80%是非结构化的，包括音频、图像、视频和文本内容等格式。虽然这类信息往往蕴含着丰富的见解，但挖掘这些复杂数据源的全部潜力并非易事，大数据的爆发在很大程度上归因于非结构化数据的快速增长。

通常，如果将选定的文本挖掘结果（如聚类或奇异值分解（SVD）值）添加到仅使用数值数据的模型中，可能会提高模型的预测能力。数据处理分为文本解析和转换两个阶段。文本解析将文本数据处理成按文档的词频矩阵，而转换（如SVD）则将该矩阵转换为适合数据挖掘目的的数据集，从而可以以紧凑高效的形式表示包含数千个文档和术语的文档集合。

2. 奇异值分解（SVD）

SVD将高维的文档和术语空间投影到低维空间，它将一个矩阵分解为三个低秩矩阵。奇异值可以被视为一种重要性度量，用于决定保留多少维度。其公式为：$A = U S V^T$ ，其中：
- $A$ 是我们要分解的矩阵，有 $m$ 个术语和 $n$ 个文档。
- $U$ 是一个 $m \times r$ 的正交矩阵。