Data-Centric vs Model-Centric:谁才是机器学习最佳实践指南?

本文探讨了数据为中心与模型为中心的两种机器学习方法,强调数据质量在AI中的关键作用,包括数据标注质量、数据增强、特征工程和数据版本控制。同时指出,领域知识在数据驱动方法中的重要性以及数据中心方法的优点和最佳实践。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

代码和数据是人工智能系统的基础。这两个组件在稳健模型的开发中都发挥着重要作用,但您应该更关注哪一个?

在本文中,我们将介绍以数据为中心与以模型为中心的方法,看看哪个更好,我们还将讨论如何采用以数据为中心的基础架构。

以模型为中心的方法

以模型为中心的方法(Model-Centric approach)意味着开展实验研究以提高机器学习模型的性能。这涉及从各种可能性中选择最佳模型架构和训练过程。

  • 在这种方法中,保持数据不变,改进代码或模型架构。
  • 其中处理构建模型的代码是这种方法的中心目标。

目前大多数人工智能应用都是以模型为中心的,其中一个可能的原因是人工智能领域对模型的学术研究非常重视。根据Andrew Ng的说法,该领域 90% 以上的研究论文都是以模型为中心的。

创建一个新数据集很难,因此人工智能社区认为以模型为中心的机器学习更有前途。但在专注于代码的同时,数据经常被忽视,数据收集被视为一次性事件。

以数据为中心的方法

以数据为中心的方法(Data-Centric approach)关注数据内在的信息,并希望通过数据组织产生更准确的模型。

  • 这种方法关注数据集,提高准确性。
  • 处理数据是这种方法的中心目标。

数据驱动与以数据为中心的方法不同:数据驱动方法是一种从数据中收集、分析和提取见解的方法。以数据为中心的方法关注使用的数据本身。

  • 以数据为中心的方法是指一个系统,其中数据是主要和永久的资产,而应用程序会发生变化。

  • 数据驱动方法意味着通过摄取大量数据来创建技术、技能和环境。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值