边缘AI项目中数据集构建与数据需求估算
在边缘AI项目中,数据集的构建和数据需求的估算至关重要。这不仅关系到模型的性能,还会对应用的社会影响产生深远作用。
领域专业知识的重要性
拥有足够的领域专业知识是构建有效数据集的关键。因为领域专家不一定擅长构建和评估数据集,所以他们需要与具备数据科学技能的团队成员紧密合作。如果团队在问题领域缺乏专业知识,尝试构建产品是不负责任的行为,因为既缺乏构建有效产品的知识,也无法判断产品是否无效。
例如,在COVID - 19大流行期间,数千名研究人员和工程师利用医学图像进行感染诊断项目。但在2212项此类研究中,只有62项通过质量审查,且没有一个模型被推荐用于临床。若应用临床和机器学习领域的专业知识,很多问题可能会得到解决。
在学术界,同行评审系统能分析和批评用AI解决问题的尝试,但在行业中却没有这样的系统。模型在黑盒系统中部署,没有文档说明,直接与现实世界系统交互,这大大增加了灾难性问题出现的可能性。所以,边缘AI工作者有责任建立确保质量的系统,关注数据集质量和领域知识的应用是关键。
数据、伦理与负责任的AI
数据集的质量对应用的社会影响比其他因素更大。从负责任AI的角度看,数据集提供了两个核心要素:一是创建算法系统的原始构建材料;二是理解系统性能的最有力工具。
以Uber自动驾驶汽车系统导致行人死亡的悲剧为例,虽然事故涉及程序和安全系统设计不佳,但核心问题是缺乏足够的训练数据。Uber的汽车在检测行人时,最初将其识别为未知物体,然后是车辆,最后是自行车。这表明分类并不总是准确的,而且Uber的测试数据中可能缺乏类似情况的图像。
人类擅长“零样
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



