大数据处理:过滤、采样与并行计算策略
1. 数据处理基础:过滤与采样
在处理大数据时,过滤和采样是两种常用的数据处理方法,它们能让分析更简洁、容易。
1.1 过滤
过滤是基于特定标准选择相关数据子集的过程。比如,若要为美国的应用构建语言模型并使用推特数据进行训练,由于英语仅占推特推文的约三分之一,过滤掉其他语言后的数据足以进行有意义的分析。过滤可视为一种特殊的数据清理方式,去除的数据并非错误数据,而是会干扰当前分析的数据。不过,过滤会引入偏差。在美国,超过 10%的人口讲西班牙语,若仅按语言过滤,西班牙语使用者在语言模型中可能得不到充分体现。因此,选择合适的过滤标准很重要,或许按推文的来源位置过滤会更好。
1.2 采样
采样是指以任意方式选择合适大小的子集,不依赖特定领域标准。对优质相关数据进行子采样有以下几个原因:
- 调整训练数据规模 :简单、稳健的模型通常参数较少,无需大量数据来拟合。无偏子采样能实现高效的模型拟合,且样本仍能代表整个数据集。
- 数据分区 :构建模型时,通常需将训练、测试和评估数据按 60%、20%和 20%的比例清晰分开。以无偏方式构建这些分区对保证过程的准确性很有必要。
- 探索性数据分析和可视化 :电子表格大小的数据集便于快速探索。无偏样本既能代表整体,又易于理解。
采样 n 条记录看似简单,实则需要更细致的处理。常见的采样方法有确定性采样和随机采样,下面分别介绍。
大数据处理核心策略解析
超级会员免费看
订阅专栏 解锁全文
1184

被折叠的 条评论
为什么被折叠?



