48、大数据处理:过滤、采样与并行计算策略

大数据处理核心策略解析

大数据处理:过滤、采样与并行计算策略

1. 数据处理基础:过滤与采样

在处理大数据时,过滤和采样是两种常用的数据处理方法,它们能让分析更简洁、容易。

1.1 过滤

过滤是基于特定标准选择相关数据子集的过程。比如,若要为美国的应用构建语言模型并使用推特数据进行训练,由于英语仅占推特推文的约三分之一,过滤掉其他语言后的数据足以进行有意义的分析。过滤可视为一种特殊的数据清理方式,去除的数据并非错误数据,而是会干扰当前分析的数据。不过,过滤会引入偏差。在美国,超过 10%的人口讲西班牙语,若仅按语言过滤,西班牙语使用者在语言模型中可能得不到充分体现。因此,选择合适的过滤标准很重要,或许按推文的来源位置过滤会更好。

1.2 采样

采样是指以任意方式选择合适大小的子集,不依赖特定领域标准。对优质相关数据进行子采样有以下几个原因:
- 调整训练数据规模 :简单、稳健的模型通常参数较少,无需大量数据来拟合。无偏子采样能实现高效的模型拟合,且样本仍能代表整个数据集。
- 数据分区 :构建模型时,通常需将训练、测试和评估数据按 60%、20%和 20%的比例清晰分开。以无偏方式构建这些分区对保证过程的准确性很有必要。
- 探索性数据分析和可视化 :电子表格大小的数据集便于快速探索。无偏样本既能代表整体,又易于理解。

采样 n 条记录看似简单,实则需要更细致的处理。常见的采样方法有确定性采样和随机采样,下面分别介绍。

1.2.1 确定性采样算法
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值