数据集收集与处理全解析
1. 数据集处理基础步骤
在处理数据集时,有一系列重要的步骤需要遵循:
- 数据分桶 :将数据集分割成多个桶,确保每个桶的大小尽量均匀,同时最大化不同桶中样本之间的相似度。通过用户 ID 可以将同一用户的样本分配到同一个桶中,这也涉及到之前提到的分层概念。
- 确定计算预算 :若适用,需固定计算预算。无论数据集大小如何,都按照 N 个批次来训练模型。
- 模型训练 :在从数据集的一小部分到整个数据集的不同子集上训练模型,且使用的子集应具有累积性。例如,若样本 X 在 10% 子集训练时被使用,那么在 20%、30% 等更大子集训练时也必须使用。
- 指标计算与绘图 :为每个训练好的模型计算关键指标,并绘制图表,横轴为数据集大小,纵轴为指标本身。
- 数据量推断 :通过一定的想象和分析,推断为了使指标再提升 1% 还需要多少额外的数据。
不过,这些指标的精度可能较低,且未考虑系统层面的因素,如概念漂移等,但即使是这样的精度,对于决定在数据标注流程上投入多少资源往往也至关重要。
2. 冷启动问题及解决方法
在处理数据集时,冷启动问题(即鸡生蛋还是蛋生鸡的问题)是一个常见且棘手的难题。当需要数据来构建系统,但在系统启动之前又无法获取数据时,就会陷入这样的困境。这对于初创公司或试图在新市场推出产品的公司来说尤为常见。在机器学习领域,常用的解决方法是近似法,即寻找与问题尽可能接近的数据。以下是一些具体的例子
超级会员免费看
订阅专栏 解锁全文
3053

被折叠的 条评论
为什么被折叠?



