29、训练数据案例剖析与经验启示

训练数据案例剖析与经验启示

避免过度关注空间信息

在某些类别标注中,人们有时会过度关注空间位置。例如,对于广告标识(非法定路牌),会期望将支撑柱与标识本身进行不同标注。但这是否为机器学习模型所需并不明确,而且标注每个标识可能要花费正常情况十倍的时间,还会增加质量保证(QA)的难度。这也会让模型预测变得更困难,因为原本简单的边界框标注被不必要地转化为了分割问题。

大型科技公司面临的挑战

以“Y 公司”为例,它是一家领先的消费电子生产商,拥有庞大的人工智能组织。尽管公司人才济济,但训练数据的整体产出却落后于竞争对手,其人工智能产品在市场上也缺乏竞争力。Y 公司采用了多小团队协作的模式,将整体问题分解为多个子问题,各团队负责特定领域,如数据工程(基础设施)团队、标注团队、数据科学团队等。

两个标注软件团队

由于业务范围广泛,Y 公司有两个不同的标注软件团队。每个团队负责从端到端的整个标注流程,包括软件工具。一个团队负责处理图像等接口类型,另一个团队负责音频等不同类型。具体职责对比如下:
| 团队一 | 团队二 | 是否重叠 |
| — | — | — |
| 音频接口 | 图像接口 | 否 |
| 导入/导出 | 导入/导出 | 是 |
| 存储抽象 | 存储抽象 | 是 |
| 人工工作流 | 人工工作流 | 是 |
| 自动化操作 | 自动化操作 | 是 |
| 第三方集成 | 第三方集成 | 是 |
| 调度、常规操作 | 调度、常规操作 | 是 |
| 用户管理、整体管理 | 用户管理、整体管理 | 是 |
| 硬件基础设施 | 硬件基础设施 | 是 |
| 更多… | 更多… | 是 |

可以发现,两个团队的工作高度相似,仅表面的用户界面(UI)不同。显然,多个软件团队做基本相同的工作是低效的(重叠度超 95%)。经过努力,公司启动了一个多年期项目来合并这两个系统。有人可能认为音频和图像的集成不同,但在整体系统设计中,这就像把水果和装水果的车混淆了。整体的数据摄取系统和基于共享原则(如标签、属性、存储适配器等)的高级集成概念是“车”,而不同格式的具体数据类型是“水果”。

媒体类型混淆问题

拥有两个相似的平台成本高昂。这主要是因为人们在项目开始时,常将标注界面(UI)与平台需求混淆,只关注面向终端用户的界面(如图像、音频等),而忽略了背后大量的工作。解决办法是优先考虑训练数据平台,将具体接口作为次要选择。如今的平台趋势是支持所有流行接口,购买现成平台时这个问题可能已得到解决。因为所有媒体类型都面临相似的底层挑战,如图像、视频等都需要摄取、存储、人工工作流、标注界面、自动化操作、集成以及与训练的连接等,特定媒体类型的接口只是标注界面领域的一个子问题。

数据不可查询问题

Y 公司为流程的不同层配备了专门团队,但这些层的定义基于数据科学步骤,未考虑训练数据的核心地位。数据科学团队面临困境,因为对象的大量元数据无法通过查询获取。他们必须逐个查询对象、获取数据并检查,才能构建数据集。这带来了诸多实际问题:
- 导入团队设计的大部分安全控制措施失效,本应几年内删除的数据在数据科学团队以数据集的形式长期存在。
- 在大规模数据(数千万条记录)情况下,无法快速更新数据。可能需要拉取和存储数百万条记录,才能得到所需的几千条。
- 给存储团队带来巨大的突发负载问题,因为他们需要支持大规模的按需访问。

更好的做法是让预测和原始媒体数据直接转换为已知格式,并从共享的已知格式和逻辑(甚至物理)位置进行拉取和查询。

标注和原始媒体分属不同团队问题

数据科学团队要获取原始数据,需与标注团队和存储团队分别沟通。这导致了记录合并困难、责任推诿等问题,如只有标注 ID 却没有原始数据,或反之。删除数据也成了大问题,一个系统删除了记录,另一个系统可能仍保留。这使得数据提取、转换和加载(ETL)过程更加复杂,还可能需要额外的流程来协调和合并数据。这主要是因为没有明确的数据上游、流向以及生产者和消费者。

向单一记录系统迈进

Y 公司有向更统一的单一记录系统迈进的意愿。例如,训练数据团队可以直接访问存储层,而无需通过不必要的代理。在案例研究时,Y 公司正在评估将训练数据数据库作为单一记录系统。这样可以实现标注和原始媒体的共享状态,数据摄取时的表示方式与标注团队一致,存储的原始记录可直接从标注中访问。这也改变了报告关系,理论上形成了训练数据生产和数据科学消费的流程。实际上,这更像是一种通知机制,数据科学团队可以跟踪训练数据生产的活动,拉取数据时从标注写入的同一来源获取。

解决方案

解决方案分为两个阶段:
1. 从全局视角看待问题,树立训练数据思维,观察多个团队之间的重叠部分。
2. 向单一记录系统迈进,以协调多个团队。

这些改变预计会带来显著效果:
- 拥有单一的事实来源(包括摄取和查询点):数据科学团队可以访问最新的数据版本,查询数据、形成命名数据集、创建不可变版本等需求都得到优先考虑,减少了获取数据的痛苦,使过程更加顺畅。
- 不再需要不必要的合并:数据在摄取时就以支持标注的方式进行捕获,标注需求得到优先考虑,消除了标注团队自行创建方法的需要。这也使报告关系更加清晰,若需要新的数据生产,可以明确界定和推理,而无需多个团队模糊协调。

保险科技初创公司的教训

一家知名的保险科技初创公司利用事故照片改进自动理赔流程,但遭遇了失败。

生产数据与训练数据不匹配

保险理赔员未做好采用人工智能的准备,他们拍摄的照片质量远低于训练时使用的高分辨率照片甚至视频。首次生产尝试失败后,由于缺乏足够的政治公信力,无法进一步投入精力。如果在系统投入生产前深入了解预期的生产照片情况,这一问题可能可以避免。这表明在系统架构的早期阶段就需要考虑生产数据的可用性。

引入训练数据软件过晚

该公司的首席工程师多年来一直推动使用商业训练数据软件,但未得到高层重视,当时公司的重点是新颖的增强数据方法。约两年后,当发现增强方法无效时,首席执行官重新考虑引入训练数据软件,但为时已晚。这说明应尽早在项目中引入训练数据软件,许多初创公司试图跳过标注环节,但都未成功。

简短故事中的启示

以下四个简短故事提供了关于训练数据的有趣且有用的轶事:
1. “自动驾驶公司静态模式阻碍创新” :一家知名自动驾驶公司使用静态标签,添加新标签非常困难。而另一家公司采用以数据为中心的方法,能更顺利地引入新标签,如“切入检测”。这表明应建立灵活的训练数据思维、工具和流程,根据情况探索和更改标签模式。
2. “初创公司未更改模式浪费精力” :一家公司两年多来一直使用简单的标签模式,每天由 10 多名标注员从头开始标注新示例。但模型几个月都无法检测到某些内容,增加更多示例也无济于事。仔细分析数据发现,他们标注的对象在不同图像中差异很大,反而让模型更困惑。通过添加数十个新的属性组,提高了模型性能。
3. “事故预防初创公司错过以数据为中心的方法” :一家中型初创公司从生产行车记录仪转型时陷入停滞。该公司未采用以数据为中心的方法,标注员少而工程团队大,很多问题本可通过标注轻松解决,却采用了传统工程方法。在工具方面,公司使用了收购的小型初创公司的内部标注工具,不够强大却不愿更换。在用例方面,过度关注标注方法(如图像分割),而忽略了用例扩展。主要教训包括:工程团队与标注员比例过高可能意味着未采用以数据为中心的方法;内部开发训练数据工具通常不是最优选择,应从开源工具开始;利用用例准则来更好地理解和规划用例。
4. “体育初创公司成功使用预标注” :虽然文中未详细描述,但表明预标注在某些情况下能取得成功。

综上所述,无论是大型科技公司还是初创公司,都应将训练数据作为首要概念,采用单一记录系统,确保生产数据与训练数据匹配,并尽早引入合适的训练数据软件和工具,以提高效率和竞争力。

训练数据案例剖析与经验启示(续)

案例总结与关键教训提炼

通过对上述多个案例的分析,我们可以总结出以下关键教训,这些教训对于各类企业在处理训练数据相关事务时具有重要的指导意义。

案例类型 关键问题 解决方案 核心教训
大型科技公司(Y 公司) 过度关注空间信息、团队工作重叠、数据不可查询、标注与原始媒体团队分离 树立训练数据思维,观察团队重叠;向单一记录系统迈进 以训练数据为核心,统一系统管理,避免各层独立处理
保险科技初创公司 生产数据与训练数据不匹配、引入训练数据软件过晚 早期考虑生产数据可用性,尽早引入训练数据软件 确保数据一致性,提前规划训练数据工具
自动驾驶公司 静态标签模式阻碍创新 建立灵活的训练数据思维和工具流程 保持标签模式的灵活性,适应业务变化
初创公司 未更改标签模式浪费精力 添加新属性组优化标注 定期评估标签模式,提高标注有效性
事故预防初创公司 未采用数据中心方法、工具不佳、用例关注不当 调整人员比例,采用开源工具,利用用例准则 以数据为中心,合理选择工具,关注用例扩展
训练数据管理的最佳实践建议

基于上述案例和教训,我们可以提出以下训练数据管理的最佳实践建议,供企业参考:

  1. 树立训练数据核心思维

    • 企业应将训练数据视为核心资产,从战略层面重视其管理和应用。各部门在进行决策和规划时,都要充分考虑训练数据的需求和影响。
    • 建立跨部门的沟通机制,确保不同团队对训练数据的理解和使用保持一致,避免因部门隔阂导致的数据管理问题。
  2. 构建统一的记录系统

    • 采用单一的记录系统来管理训练数据,实现数据的集中存储、查询和更新。这样可以提高数据的可访问性和一致性,减少数据冗余和错误。
    • 确保记录系统能够支持不同类型的数据和标注方式,适应企业业务的多样化需求。
  3. 确保数据一致性

    • 在系统设计的早期阶段,充分考虑生产数据与训练数据的匹配问题。进行详细的需求分析和数据规划,确保生产环境中使用的数据与训练模型时的数据具有相似的特征和质量。
    • 建立数据质量监控机制,定期检查数据的一致性和准确性,及时发现和解决数据不一致的问题。
  4. 灵活管理标签模式

    • 避免使用静态的标签模式,建立灵活的标签管理机制。根据业务需求和数据变化,及时调整和扩展标签体系,确保模型能够适应新的情况。
    • 鼓励团队成员参与标签模式的优化和改进,提高标签的有效性和实用性。
  5. 合理选择工具和人员配置

    • 优先考虑使用开源的训练数据工具,降低成本并提高工具的灵活性和可扩展性。同时,根据企业的实际需求,选择适合的商业工具进行补充。
    • 合理配置工程团队和标注人员的比例,确保数据中心方法的有效实施。标注人员的专业知识和经验对于提高数据标注的质量和效率至关重要。
  6. 关注用例扩展

    • 不要局限于单一的标注方法和用例,要从业务需求出发,积极探索和扩展训练数据的应用场景。通过添加更多的属性和信息,提高模型的性能和准确性。
    • 定期评估用例的有效性和价值,及时调整用例策略,确保训练数据的投入能够带来最大的业务回报。
未来训练数据发展趋势展望

随着人工智能技术的不断发展和应用,训练数据的重要性将日益凸显。未来,训练数据管理可能会呈现以下发展趋势:

  1. 自动化标注技术的广泛应用

    • 随着机器学习和计算机视觉技术的进步,自动化标注技术将得到更广泛的应用。通过使用深度学习模型和图像识别算法,可以实现对大量数据的快速标注,提高标注效率和准确性。
    • 自动化标注技术还可以与人工标注相结合,形成混合标注模式,充分发挥两者的优势。
  2. 数据隐私和安全的重视

    • 随着数据泄露和隐私问题的日益严重,企业将更加重视训练数据的隐私和安全保护。采用加密技术、访问控制和数据脱敏等手段,确保训练数据的安全性和合规性。
    • 政府和监管机构也将加强对训练数据隐私和安全的监管,制定更加严格的法律法规和标准。
  3. 跨领域数据的融合应用

    • 未来的人工智能应用将越来越多地涉及跨领域的数据融合。企业需要整合不同来源、不同类型的数据,构建更加全面和准确的训练数据集。
    • 跨领域数据的融合应用将带来新的挑战和机遇,需要企业具备更强的数据管理和分析能力。
  4. 数据驱动的模型优化

    • 训练数据将成为模型优化的核心驱动力。通过对训练数据的深入分析和挖掘,可以发现模型的不足之处,并及时调整和优化模型。
    • 数据驱动的模型优化将实现模型的持续改进和升级,提高模型的性能和适应性。
结论

训练数据在人工智能的发展中起着至关重要的作用。通过对多个实际案例的分析,我们深刻认识到了训练数据管理中存在的问题和挑战,以及相应的解决方案和最佳实践。企业在处理训练数据时,应树立正确的思维观念,采用科学的管理方法,合理配置资源,以提高训练数据的质量和效率,推动人工智能技术的应用和发展。

同时,我们也应关注未来训练数据的发展趋势,提前做好规划和准备,以适应不断变化的市场需求和技术环境。只有这样,企业才能在激烈的市场竞争中立于不败之地,实现可持续发展。

graph LR
    classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
    A(树立训练数据核心思维):::process --> B(构建统一的记录系统):::process
    B --> C(确保数据一致性):::process
    C --> D(灵活管理标签模式):::process
    D --> E(合理选择工具和人员配置):::process
    E --> F(关注用例扩展):::process
    F --> G(实现训练数据有效管理):::process

这个流程图展示了训练数据管理最佳实践的逻辑顺序,从树立核心思维开始,逐步推进到各个关键环节,最终实现训练数据的有效管理。通过遵循这些步骤,企业可以更好地应对训练数据管理中的挑战,提高人工智能项目的成功率。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值