代码和数据是人工智能系统的基础。这两个组件在稳健模型的开发中都发挥着重要作用,但您应该更关注哪一个?
在本文中,我们将介绍以数据为中心与以模型为中心的方法,看看哪个更好,我们还将讨论如何采用以数据为中心的基础架构。
以模型为中心的方法
以模型为中心的方法(Model-Centric approach)意味着开展实验研究以提高机器学习模型的性能。这涉及从各种可能性中选择最佳模型架构和训练过程。
- 在这种方法中,保持数据不变,改进代码或模型架构。
- 其中处理构建模型的代码是这种方法的中心目标。
目前大多数人工智能应用都是以模型为中心的,其中一个可能的原因是人工智能领域对模型的学术研究非常重视。根据Andrew Ng的说法,该领域 90% 以上的研究论文都是以模型为中心的。
创建一个新数据集很难,因此人工智能社区认为以模型为中心的机器学习更有前途。但在专注于代码的同时,数据经常被忽视,数据收集被视为一次性事件。
以数据为中心的方法
以数据为中心的方法(Data-Centric approach)关注数据内在的信息,并希望通过数据组织产生更准确的模型。
- 这种方法关注数据集,提高准确性。
- 处理数据是这种方法的中心目标。
数据驱动与以数据为中心的方法不同:数据驱动方法是一种从数据中收集、分析和提取见解的方法。以数据为中心的方法关注使用的数据本身。
-
以数据为中心的方法是指一个系统,其中数据是主要和永久的资产,而应用程序会发生变化。
-
数据驱动方法意味着通过摄取大量数据来创建技术、技能和环境。