边缘AI项目中的数据集构建与数据需求
在人工智能领域,数据集与领域专家之间存在着紧密的联系。每个AI产品都反映了用于开发、训练和测试它的数据集。当产品使用机器学习时,算法直接由数据决定;即使是手动编码的算法,其质量也取决于用于测试它们的数据。
数据集与领域专家的紧密联系
- 数据集决定项目成果 :整个项目的成果由数据集的质量决定。组织中只有领域专家有资格理解数据集的质量,他们对要解决问题的了解必须指导数据集的构建和管理。例如,在开发一个医疗诊断AI应用时,医学领域专家对疾病特征的了解能帮助构建更准确的数据集。
- 数据集是领域专业知识的载体 :数据集是产品和组织内领域专业知识的主要载体,它以数字形式代表了领域专家的知识,就像一个提供访问其见解的应用程序编程接口(API)。团队的其他成员会利用这些编码知识来构建应用,算法工程师用数据集来调整或训练算法,测试人员用它来确保应用在各种情况下都能正常工作。
- 需要领域专家与数据科学家合作 :拥有足够的领域专业知识至关重要。由于领域专家不一定是构建和评估数据集的专家,他们需要与具备数据科学技能的团队成员密切合作,共同构建有效的数据集。如果团队在问题领域缺乏领域专业知识,尝试构建产品是不负责任的行为,因为既缺乏构建有效产品的知识,也缺乏判断产品是否无效的洞察力。
数据集质量对应用社会后果的影响
从负责任的AI角度来看,数据集提供了两个核心要素:
- 算法系统的原始构建材料 :数据集是尝试创建的算
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



