28、人工智能数据处理与应用:模拟、自动化及案例分析

人工智能数据处理与应用:模拟、自动化及案例分析

在人工智能领域,数据处理和应用的效率与质量至关重要。本文将探讨模拟技术的应用、不同媒体类型的自动化方法,以及通过实际案例分析从中汲取的经验教训。

模拟技术的应用

模拟技术在某些场景下具有明显的益处,但也存在一定的局限性。

模拟技术的有益应用场景
  • 产品图像 :对于已知外观的产品,模拟技术可为购物型机器人提供清晰的产品图像。
  • 自动驾驶的罕见场景 :模拟技术能够创建自动驾驶中的罕见场景,有助于提升自动驾驶系统的应对能力。
模拟技术的优缺点
优点 缺点
1. 可提高性能
2. 能创建难以实现或罕见的案例
1. 性能提升通常较小,约为 0 - 10%
2. 模拟的保真度与现实世界可能存在较大差距
3. 设置、维护和操作成本较高

在考虑使用模拟技术时,需要批判性地思考一些问题,例如实际模拟的内容,是照明条件、相机角度还是整个场景等。

不同媒体类型的自动化方法

许多自动化方法适用于多种媒体类型,但不同媒体类型也有其特定的适用方法。

常见自动化方法与媒体类型的匹配情况
方法/数据类型 视频 图像 3D 文本 音频
用户界面最佳实践
预标注
交互式自动化 ✔a Sometimesb 研究领域
质量保证自动化 研究领域
数据发现 Sometimesc 研究领域
增强 Sometimese 研究领域 研究领域
模拟和合成 ✔f 研究领域 研究领域
特定媒体 Varies—check method
特定领域
特殊用途自动化,如几何和多传感器方法 很少常用方法 Sometimes 很少常用方法 很少常用方法 很少常用方法

注:
a. 可能需要更多的设置工作。
b. 有多种“实时”模型训练概念,但通常更侧重于单用户。
c. 如果方法需要转换为图像,可能会妨碍视频特定的自动化。如果可能,考虑发现片段并保持视频形式,以提高兼容性。
d. 增强方法往往是特定领域的,观点不一。
e. 许多增强方法侧重于图像,可能不适用于事件检测或其他类型的运动预测任务。
f. 因为大多数模拟默认是 3D 的。
g. 如对象跟踪(视频)、字典(文本)、自动边框(图像)。由于这些方法针对每种媒体类型是独特的,选择特定方法时需仔细检查。

不同媒体类型的特定研究
  • 视频特定 :对于事件检测类型的操作,某些自动化方法可能不适用。例如,对象跟踪可能会混淆你想确切知道事件发生在哪一帧的情况。对象跟踪是通过查看数据本身,在多个帧中跟踪一个对象;插值则是人类创建关键帧,然后填充中间数据。
  • 多边形和分割特定 - 自动边框 :使用自动边框等技术来对齐边缘,是实用 UI 自动化的一个很好的应用。
  • 文本(NLP)特定 :与 GPT 进行预标注、启发式方法和字典查找是三种最常见的方法。
特定领域的方法

不同领域有其特定的适用方法,以下是一些常见的特定领域方法。

基于几何的标注

在某些情况下,可以利用场景、传感器等的已知几何信息,通过基于几何的变换自动创建一些标签。但这种方法高度依赖数据的特定上下文。

多传感器标注自动化 - 空间

主要思想是利用数学投影,根据传感器的实际位置来假设物体在空间中的位置。例如,有六个相机时,可以构建一个虚拟 3D 场景,标注一个相机后将其投影到其他五个相机。理论上,最佳情况下可以实现 5:1 的回报,但实际中由于需要审查和修正投影,回报约为 3:1。此方法需要多个传感器、额外的元数据以及投影到 3D 的能力。

空间标注

与多传感器标注类似,但更侧重于具有大量几何概念的情况,如车道线。

基于启发式的标注

启发式标注主要集中在自然语言处理领域,主要包括基于字典的标注和用户定义的启发式方法。然而,这是一个有争议的领域。如果编写了一套完美的启发式规则,可能就不需要训练机器学习模型了。因为启发式规则越明确,就越像在进行编码和特征工程,这与深度学习的自动特征工程理念相悖。但这并不意味着启发式方法没有价值,在文本应用方面有一些有趣的研究。

通过以上对模拟技术、不同媒体类型自动化方法以及特定领域方法的介绍,我们可以看到在人工智能数据处理中,有多种方法可供选择,但每种方法都有其适用场景和局限性。在实际应用中,需要根据具体需求和数据特点选择合适的方法,以提高数据处理的效率和质量。

接下来,我们将通过实际案例进一步探讨这些方法在现实世界中的应用和经验教训。

实际案例分析

实际案例能够帮助我们更好地理解上述方法在现实世界中的应用和挑战。以下将介绍几个不同类型的案例,包括安全初创公司采用训练数据工具和大规模自动驾驶项目的质量保证等。

安全初创公司采用训练数据工具

一家大型安全初创公司采用训练数据平台后,几乎在每个团队都获得了显著的好处。
- 标注人员 :从使用内部的手动表单解决方案,切换到将所有表单整合到一个搜索框的工具。通过搜索数千个属性,并且在可能的情况下预加载数据,标注速度从每分钟一次标注提升到每秒一次标注。这表明配置良好或定制的工具可以显著减少工作时间。
- 数据传输 :取代了繁琐的手动文件传输过程,将所有数据集中到一个标准化的训练数据系统中。这不仅集中了安全控制,还减少了数据传输成本,因为数据通过引用而不是物理移动。
- 数据科学家 :之前不同团队将标签(如边界框)和属性视为不同的东西,导致混淆。采用训练数据系统后,他们能够将模式统一为一个,并且可以直接从系统中查询数据,甚至在数据集准备好进行审查或处理时收到通知。
- 新产品方向 :通过“系统化”所有流程,公司解锁了一个全新的产品方向,减少了个人身份信息(PII)和标注方面的担忧。

该公司采用标准训练数据系统的好处总结如下:
1. 安全性提高,数据集中到一个符合 PII 要求的地方,同时降低了数据传输成本。
2. 数据科学团队使用统一的模式,加快了模型生产速度,标注速度大幅提升,并且实现了全新的标注形式。
3. 创建了全新的产品线。

大规模自动驾驶项目的质量保证

在一个虚构的“X 自动驾驶公司”的项目中,标注质量保证(QA)方面出现了一些问题,从中我们可以吸取很多教训。

模式更新失败

团队在更新模式时出现了问题,不断扩展和修改说明,但实际上却使模式变得更糟,而不是全面扩展模式以满足建模和原始数据的最低需求。
- 复杂模式应扩展而非缩小 :模型难以区分“带拖车的卡车”和“大型车辆”,团队将所有相关车辆都标注为“大型车辆”,这虽然有助于标注工作,但严重影响了模型性能。更好的方法是标注为“车辆”,并将“尺寸”和“附件”作为属性,“附件”部分可以有“不明确”类别。这样可以在机器学习训练时聚合标签和属性。
- 不要用特定领域假设为不良模式辩护 :公司将小型拖曳物体标注为拖曳它的物体,例如将被大型车辆拖曳的发电机标注为“大型车辆”。这种模式不清晰,容易导致错误。更好的做法是使用“车辆”标签,并添加属性类型(如皮卡、货车等)。

跟踪空间质量和图像错误

为了管理质量,需要跟踪预期的错误数量和正常范围,如下表所示:
| 预期错误数量 | 正常范围和注意事项 |
| — | — |
| 每图像错误像素数 | 1. 像素错误可能多达 1000 个
2. 一般目标是 200 个或更少,但经常会出现超过 800 个像素的错误
3. 需要设置准确性阈值,例如有时 QA 尝试修复一行中的单个像素是无效的 |
| 每图像错误标注数 | 1. 通常期望每图像少于 0.02 个错误
2. 每图像 0.1 个错误会引起严重警报
3. 实际上,每 50 张图像(可能超过 500 个实例)应该只有 1 个错误 |

注:会设置一个高于特定像素值的阈值,例如小于 50 像素或 50% 变化(取较大值)的“修正”可能仍需进行,但不计入此指标的“错误”。

供应商提供的数据质量水平在 47% 到 98% 之间,客户通过更严格的努力可以自我审核到 98% 以上。但超过 98% 往往更多是不同意见或猜测,难以从图像中实际确定。一般来说,数据量越大,相对错误率越低,可能是因为标注人员对数据更加熟悉并自我纠正。

从中我们得到两个主要启示:
1. 令人惊讶的是,可以使用这种方法跟踪质量。
2. 对于空间相关工作,98% 或以上可以视为“完美”。

车道线模式问题

公司在车道线标注方面经常遇到问题,部分原因是车道线定义不明确,例如出现黑色线条、涂覆线条和只有“鬼影”而无实际油漆的线条。公司没有将模式与原始数据很好地对齐,而是指责标注团队,而不是修复模式。

回归和专注努力不一定能解决问题

在车道线问题上,即使每周审查并突出问题区域,问题可能反而会恶化。使用比较格式突出错误时,由于缩放/裁剪率可变,难以理解错误的程度。可以考虑添加小地图或缩放百分比来缓解这个问题。

过度关注复杂说明而非修复模式

项目中一个反复出现的问题是,团队没有修复模式,而是试图通过越来越具体、复杂和令人困惑的说明来解决问题。例如:
| 初始说明 | 问题 | 第二次说明 | 作者评论 |
| — | — | — | — |
| “不要标注褪色的车道线” | 模型在有褪色车道线的图像上表现不佳 | “无论如何都标注所有车道线” | 标注所有线条,并在褪色线条上添加“褪色”属性。必要时,降低总体工作量以确保达到关键质量阈值 |
| “即使看不到也要标注所有侧护板” | 模型过度预测侧护板 | “只标注你能看到的” | 只标注可见内容通常是最好的默认起点 |
| 区分“植被”与草、杂草等 | 标注人员容易混淆“植被”与草、杂草等形式的植被 | 未解决 | 始终明确什么是聚合标签,什么是具体事物。最好将“植被”作为顶级标签,将 [草,杂草] 作为属性 |

此外,在可行驶路面与背景的区分上,公司没有改变模式,而是不断扩展说明集,这是不合理的。好的说明很重要,但不能替代良好的模式。应该先尝试在模式本身中纠正问题,再更改说明。

追求“完美”的权衡

在追求高质量的同时,也不想在相对较小的修正上花费过多时间,这就产生了权衡问题。例如,设置了一个限制,如果使用超过 4 倍缩放,则不进行修正。同时,团队没有很好地将纯粹可观察的信息与人类概念性添加的信息分开,并且有时期望“仅从视觉判断”包含近乎完整的驾驶体验和当地法律知识。在边界和细微情况中,很难确定一个固定的解决方案,难以在合理的 QA 成本下实现高精度。

理解细微情况
  • 遮挡情况 :在有遮挡的情况下,允许使用连续标签,但每个范围都必须包含已知信息。例如,一条从左边开始可见,被卡车挡住后又可见的车道是可以接受的,但只在开始或结束可见的车道则不行。
  • 容易混淆的事物 :“铺设”与“未铺设”、“地形”与“路肩”等区分容易引起问题。这些区分在很多情况下是模糊和不明确的,例如石工是否算“铺设”,车道右侧的区域是路面还是路肩等。

通过这些案例,我们可以看到在实际应用中,无论是采用训练数据工具还是进行质量保证,都需要谨慎考虑各种因素,避免常见的错误,以提高项目的成功率。同时,也需要不断总结经验教训,根据实际情况调整方法和策略。

人工智能数据处理与应用:模拟、自动化及案例分析

案例中的问题分析与改进建议

在上述案例中,我们发现了一些普遍存在的问题,以下是对这些问题的分析以及相应的改进建议。

模式定义问题
  • 问题 :模式定义过于宽泛或模糊,导致标注不准确和模型性能下降。如在自动驾驶项目中,“大型车辆”的定义不明确,以及对车道线、植被等的标注模式与实际情况不匹配。
  • 建议
    • 细化模式,使用标签和属性相结合的方式。例如,对于车辆标注,除了“车辆”标签外,还可以添加“尺寸”“类型”“附件”等属性,使标注更准确。
    • 迭代模式,根据实际数据和模型反馈不断优化模式,确保其与原始数据和建模需求相匹配。
说明与模式的关系问题
  • 问题 :过度依赖复杂的说明来弥补模式的不足,而不是直接修复模式。这导致说明集不断膨胀,增加了标注人员的理解难度。
  • 建议
    • 优先修复模式本身的问题,确保模式清晰、准确。只有在模式无法完全涵盖所有情况时,再使用说明进行补充。
    • 简化说明,使其简洁明了,避免使用过于专业或模糊的术语。
质量跟踪与控制问题
  • 问题 :在质量跟踪方面,虽然可以跟踪错误数量和范围,但对于一些细微情况和边界情况的处理缺乏明确的标准,导致难以在合理成本下实现高精度。
  • 建议
    • 明确质量标准,特别是对于边界和细微情况,制定具体的处理规则。例如,对于遮挡、模糊等情况,规定如何进行标注和判断。
    • 结合多种质量跟踪方法,除了跟踪像素错误和标注错误外,还可以考虑使用其他指标,如标注一致性、模型性能变化等。
自动化与人工的结合问题
  • 问题 :在自动化标注过程中,没有充分考虑人工的作用,导致一些概念性信息和复杂情况无法准确处理。
  • 建议
    • 合理分配自动化和人工的任务。对于简单、重复的任务,可以使用自动化方法;对于复杂、需要判断的任务,保留人工标注或审核环节。
    • 加强人工与自动化的协作,例如通过人工标注少量样本,训练自动化模型,然后再由人工对模型的输出进行审核和修正。
总结与展望

在人工智能数据处理和应用中,我们介绍了模拟技术、不同媒体类型的自动化方法以及特定领域的方法,并通过实际案例分析了这些方法在现实世界中的应用和挑战。我们可以得出以下结论:

  • 方法多样性 :在数据处理中,有多种方法可供选择,包括模拟、自动化标注、基于几何和启发式的方法等。每种方法都有其适用场景和局限性,需要根据具体需求和数据特点进行选择。
  • 实际应用挑战 :在实际应用中,会遇到各种问题,如模式定义不准确、说明与模式关系处理不当、质量跟踪和控制困难等。需要通过合理的方法和策略来解决这些问题。
  • 人工的重要性 :尽管自动化方法可以提高效率,但人工在数据处理中仍然起着关键作用。特别是在处理复杂情况、概念性信息和进行质量审核时,人工的判断和经验是不可或缺的。

未来,随着人工智能技术的不断发展,数据处理和应用将面临更多的挑战和机遇。我们需要不断探索新的方法和技术,提高数据处理的效率和质量,同时注重人工与自动化的结合,以更好地应对各种复杂情况。以下是一些可能的发展方向:

  • 更智能的自动化方法 :开发更智能的自动化标注和处理方法,能够自动识别和处理复杂情况,减少人工干预。
  • 跨媒体和跨领域的融合 :随着数据类型的不断增加,需要研究跨媒体和跨领域的数据处理方法,实现不同类型数据的统一处理和应用。
  • 质量评估体系的完善 :建立更加完善的质量评估体系,能够准确评估数据处理的质量,并为改进提供依据。

通过不断地学习和实践,我们可以更好地掌握人工智能数据处理和应用的技术,为人工智能的发展提供更加坚实的基础。

附录:相关流程和示例
多传感器标注自动化 - 空间流程
graph LR
    A[获取多个传感器数据] --> B[构建虚拟 3D 场景]
    B --> C[标注一个相机数据]
    C --> D[将标注投影到其他相机]
    D --> E[审查和修正投影结果]
    E --> F[输出最终标注数据]
质量跟踪示例
阶段 操作 指标 说明
数据采集 记录采集的数据量、数据类型 数据量、数据类型分布 了解数据的基本情况
标注过程 跟踪每图像的错误像素数、错误标注数 错误像素数、错误标注数的平均值和标准差 监控标注质量
模型训练 评估模型的性能指标,如准确率、召回率等 准确率、召回率、F1 值 评估模型对标注数据的学习效果
质量审核 人工审核标注数据,记录审核结果 审核通过率、错误类型分布 确保标注数据的最终质量

通过以上流程和示例,我们可以更清晰地了解数据处理和质量跟踪的过程,为实际应用提供参考。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值