大数据处理:规模实现的关键技术
1. 数据筛选与采样
1.1 筛选与采样的定义
在处理大数据时,筛选和采样是两种常用的数据处理方法。筛选是根据特定标准选择相关数据子集的过程。例如,若要为美国的应用构建语言模型并使用 Twitter 数据进行训练,由于英语推文仅占所有推文的约三分之一,过滤掉其他语言的推文可留下足够数据进行有意义的分析。筛选可视为一种特殊的数据清理方式,去除的数据并非错误数据,而是会干扰当前分析的数据。不过,筛选会引入偏差,如美国超过 10%的人口讲西班牙语,若仅按语言筛选,可能会在语言模型中忽略这部分人群。
采样则是以任意方式选择适当大小的子集,不依赖特定领域标准。进行子采样的原因主要有以下几点:
- 调整训练数据规模 :简单、稳健的模型通常参数较少,无需大量数据来拟合。无偏子采样可实现高效模型拟合,且能代表整个数据集。
- 数据划分 :构建模型时,需将训练、测试和评估数据清晰分离,通常比例为 60%、20%和 20%。以无偏方式进行划分对保证过程的准确性至关重要。
- 探索性数据分析和可视化 :电子表格大小的数据集便于快速探索。无偏样本既能代表整体,又易于理解。
1.2 确定性采样算法
截断采样
截断采样是一种简单的采样方法,即选取文件中的前 n 条记录作为样本。这种方法简单且易于重现,但存在诸多问题。文件中记录的顺序往往包含语义信息,截断采样可能导致以下偏差:
- 时间偏差 :日志文件通常按时间顺序添
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



