47、大数据处理:规模实现的关键技术

大数据处理:规模实现的关键技术

1. 数据筛选与采样

1.1 筛选与采样的定义

在处理大数据时,筛选和采样是两种常用的数据处理方法。筛选是根据特定标准选择相关数据子集的过程。例如,若要为美国的应用构建语言模型并使用 Twitter 数据进行训练,由于英语推文仅占所有推文的约三分之一,过滤掉其他语言的推文可留下足够数据进行有意义的分析。筛选可视为一种特殊的数据清理方式,去除的数据并非错误数据,而是会干扰当前分析的数据。不过,筛选会引入偏差,如美国超过 10%的人口讲西班牙语,若仅按语言筛选,可能会在语言模型中忽略这部分人群。

采样则是以任意方式选择适当大小的子集,不依赖特定领域标准。进行子采样的原因主要有以下几点:
- 调整训练数据规模 :简单、稳健的模型通常参数较少,无需大量数据来拟合。无偏子采样可实现高效模型拟合,且能代表整个数据集。
- 数据划分 :构建模型时,需将训练、测试和评估数据清晰分离,通常比例为 60%、20%和 20%。以无偏方式进行划分对保证过程的准确性至关重要。
- 探索性数据分析和可视化 :电子表格大小的数据集便于快速探索。无偏样本既能代表整体,又易于理解。

1.2 确定性采样算法

截断采样

截断采样是一种简单的采样方法,即选取文件中的前 n 条记录作为样本。这种方法简单且易于重现,但存在诸多问题。文件中记录的顺序往往包含语义信息,截断采样可能导致以下偏差:
- 时间偏差 :日志文件通常按时间顺序添

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值