14、数据集收集与处理全解析

数据集收集与处理全解析

1. 数据集处理基础步骤

在处理数据集时,有一系列重要的步骤需要遵循:
- 数据分桶 :将数据集分割成多个桶,确保每个桶的大小尽量均匀,同时最大化不同桶中样本之间的相似度。通过用户 ID 可以将同一用户的样本分配到同一个桶中,这也涉及到之前提到的分层概念。
- 确定计算预算 :若适用,需固定计算预算。无论数据集大小如何,都按照 N 个批次来训练模型。
- 模型训练 :在从数据集的一小部分到整个数据集的不同子集上训练模型,且使用的子集应具有累积性。例如,若样本 X 在 10% 子集训练时被使用,那么在 20%、30% 等更大子集训练时也必须使用。
- 指标计算与绘图 :为每个训练好的模型计算关键指标,并绘制图表,横轴为数据集大小,纵轴为指标本身。
- 数据量推断 :通过一定的想象和分析,推断为了使指标再提升 1% 还需要多少额外的数据。

不过,这些指标的精度可能较低,且未考虑系统层面的因素,如概念漂移等,但即使是这样的精度,对于决定在数据标注流程上投入多少资源往往也至关重要。

2. 冷启动问题及解决方法

在处理数据集时,冷启动问题(即鸡生蛋还是蛋生鸡的问题)是一个常见且棘手的难题。当需要数据来构建系统,但在系统启动之前又无法获取数据时,就会陷入这样的困境。这对于初创公司或试图在新市场推出产品的公司来说尤为常见。在机器学习领域,常用的解决方法是近似法,即寻找与问题尽可能接近的数据。以下是一些具体的例子

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值