本文是AI相关的论文,针对《Data-centric Artificial Intelligence: A Survey》的翻译。
摘要
人工智能在几乎所有领域都产生了深远的影响。它取得巨大成功的一个重要因素是为构建机器学习模型提供了丰富而高质量的数据。最近,数据在人工智能中的作用被显著放大,催生了以数据为中心的人工智能概念。研究人员和从业者的注意力逐渐从推进模型设计转向提高数据的质量和数量。在这项调查中,我们讨论了以数据为中心的人工智能的必要性,然后全面看待了三个以数据为核心的通用目标(训练数据开发、推理数据开发和数据维护)和代表性方法。我们还从自动化和协作的角度组织现有文献,讨论挑战,并将各种任务的基准数据制成表格。我们相信这是第一次全面的调查,它提供了数据生命周期各个阶段的一系列任务的全局视图。我们希望它能帮助读者有效地了解这个领域的全貌,并为他们提供技术和进一步的研究思路,为构建人工智能系统系统系统地设计数据。将定期更新以数据为中心的人工智能资源的配套列表https://github.com/daochenzha/data-centric-AI。