数据预处理:采样、离散化与概念层次生成
1. 数据采样方法
在数据处理中,采样是一种重要的数据缩减技术,常见的采样方法有以下几种:
- 无放回简单随机采样(SRSWOR) :从数据集 D 的 N 个元组中抽取 s 个元组(s < N),每个元组被抽取的概率为 1/N,所有元组被采样的可能性相同。
- 有放回简单随机采样(SRSWR) :与 SRSWOR 类似,但每次从 D 中抽取一个元组后,记录该元组并将其放回 D 中,使得该元组有可能被再次抽取。
- 聚类采样 :将数据集 D 中的元组分组为 M 个互不相交的“簇”,然后对这些簇进行大小为 s(s < M)的简单随机采样。例如,数据库中的元组通常按页检索,每页可视为一个簇,对页应用 SRSWOR 可得到元组的聚类样本。
- 分层采样 :将数据集 D 划分为互不相交的部分,称为层,在每个层中进行简单随机采样,从而生成 D 的分层样本。这有助于确保样本具有代表性,特别是当数据存在偏斜时。例如,从客户数据中进行分层采样,为每个客户年龄组创建一个层,这样客户数量最少的年龄组也能得到代表。
采样用于数据缩减的优势在于,获取样本的成本与样本大小 s 成正比,而非数据集大小 N。因此,采样复杂度可能低于数据大小的线性复杂度。对于固定的样本大小,采样复杂度随数据维度 n 的增加仅呈线性增长,而使用直方图等技术的复杂度则随 n 呈指数增长。采样常用于估计聚合查询的答案,通过中心极限定理可以确定在指定误差范围内估计给定函数所需的足够样本大小,该样本大小 s 可能远小于
超级会员免费看
订阅专栏 解锁全文
784

被折叠的 条评论
为什么被折叠?



