25、AI 训练数据：核心要点与自动化方法解析-优快云博客

本文链接：https://blog.youkuaiyun.com/b0c1d2/article/details/152113853

AI 训练数据：核心要点与自动化方法解析

训练数据核心要点

在处理训练数据时，有几个核心要点需要明确。首先，非数据科学专业知识，以主题知识的形式呈现，是训练数据的核心。主题专家（SMEs）与数据科学家的数量比例悬殊，就像广阔田野与一粒谷物的对比。而且，数据科学工作正越来越自动化，并融入到应用程序中。

大多数数据科学家其实希望其他人能更多地了解训练数据，因为他们自己有足够多的事情要操心，不想过多担心训练数据的问题。并非所有数据都适合立即用作训练数据，能够识别哪些数据可能有效、哪些无效，是这一领域的关键能力。自下而上提出的想法，更不容易出现看似简单实则困难且最终失败的情况。

新工程原则

为了建立更好的数据工程体系，第一步是要认识到业务需求、专家注释人员以及日常数据关注点之间的交集。这就需要一个 AI 数据存储库，能够将所有的二进制大对象（BLOB）、模式和预测结果整合在一处。
- 分离注释体验的 UI/UX 关注点 ：例如，在现有和新应用程序中嵌入 UI/UX。
- 使训练数据存储库成为核心组件 ：就像运行 Web 服务器使用标准的 Web 服务器技术一样，随着这一领域的复杂性和投入不断增加，将训练数据转移到专用系统或一组系统中变得越来越有意义。
- 将训练数据与数据科学分离 ：一个简单的切入点是数据集创建。不再将数据集视为静态的，如果允许训练数据自行创建，让数据科学进行查询，就能实现更强大的职责分离。当然，在实践中会有一些交互和沟通，但这样能更清晰地划分职责范围。

AI 转型要点总结

AI 时代已经到来，人类指导是 AI 转型的基础。以数据为中心的 AI 涉及创建新的模式、捕获新的原始数据以及进行新的注释来构建 AI。以下是一些关键要点：
- 任命一位像训练数据总监这样的领导者，推动 AI 战略，监督数据生产，并与数据消费者对接。
- 使用侧重于频率、专家和新能力的准则，识别高影响力的 AI 用例。
- 重新思考注释人才战略，利用现有的专家作为注释人员。
- 实施用于注释、工作流、验证和基础设施的现代训练数据工具。

自动化方法概述

自动化方法作用于不同的方面，有些作用于标签，有些作用于属性，有些作用于空间位置（如框、标记位置），还有些作用于模式之外的更一般概念。例如，对象跟踪通常侧重于空间信息，对标签和属性的含义帮助不大。在使用时，需要明确方法设计用于处理模式的哪一部分，如果可能，要重点关注这一点，否则需深入研究具体细节，因为这通常取决于实现细节。

以下是 mermaid 格式的流程图，展示了自动化方法选择的大致流程：

graph LR
    A[遇到训练数据问题] --> B{问题类型}
    B -->|日常工作多等| C(预标注)
    B -->|注释工作繁琐等| D(交互式自动化)
    B -->|注释质量差| E(质量保证工具)
    B -->|数据发现需求| F(数据发现)
    B -->|难以获取原始数据| G(模拟和合成数据)

常用自动化技术

预标注 ：在注释之前运行模型，减少无意义的工作，将重点转移到纠正异常情况，是其他方法的基础构建块，但不能完全解决标注问题，仍需人工审核数据并进行进一步处理。
交互式自动化 ：用户添加信息以帮助算法，目标是使注释工作成为人类思维的自然延伸。例如，绘制一个框自动获得更精确的多边形标记，能减少繁琐的 UI 工作，但不能完全消除所有 UI 工作。
质量保证工具 ：减少对地面真值数据的手动质量保证时间，发现模型的新见解，但不能完全取代人工审核人员。
数据发现 ：让人类时间集中在最有意义的数据上，避免不必要的相似注释，在已有运行良好的模型且主要目标是对其进行评分的情况下效果较好。
现有真实数据的增强 ：能为模型性能提供小幅度提升，但需要有基础数据。

特定领域的自动化技术

这些技术依赖于数据和传感器配置，可能成本更高，或者需要对数据有更多假设：
- 特殊用途的自动化，如几何和多传感器方法。
- 特定媒体技术，如视频跟踪和插值。
- 模拟和合成数据。

需要注意的是，这些方法在理论上有一定顺序，但在实践中使用顺序并不固定。例如，预标注可以作为数据发现步骤的一部分，在注释过程中或更晚的时候用于对生产预测进行评分。有时，数据发现只有在标注了相当比例的数据后才有实际意义。因此，更常见的方法通常放在前面介绍。

自动化方法的预期结果

常见误区

新模型创建的“完全”自动标注 ：常见的误区是认为可以“自动标注创建新模型而无需人工”。实际上，创建原始 AI 模型时，必须有某种形式的非自动人工标注。即使是 GPT 技术，在原始模型对齐时仍需要人工监督。如果能实现对任意数据的真正完全自动标注来创建新模型，那就实现了通用人工智能（AGI），但这目前超出了商业关注的范围。
专有自动方法 ：有些宣传称“使用我们的方法可获得 10 倍更好的结果”，这有时是夸大其词。虽然这些方法相互叠加可能会带来显著改善，但许多秘密的特定供应商方法通常适用范围很窄，例如可能只适用于一种媒体类型、一种数据分布、一种空间类型等。事先很难验证自己的用例是否符合这些假设，因此最好了解通用方法，选择便于运行最新研究和使用自己方法的工具。

自动化的风险

所有自动化，即使按预期运行，也会带来风险，特别是在注释方面：
- 缺乏净提升 ：自动化有时实际上并不能提供帮助，尤其是涉及用户界面的自动化。
- 结果更差 ：自动化可能导致结果更差，例如超像素方法可能导致模糊的注释，比跟踪多边形更不准确。不要认为失败状态等同于手动注释。
- 成本超支 ：自动化有许多成本，包括实施时间、硬件成本、人员培训成本等。
- 特定方法风险 ：每种方法都有其独特的风险，即使看似相似的方法也可能有不同的效果。
- 处理过于随意 ：有时自动化感觉只是节省一点时间或很明显的事情，但要记住每个自动化就像一个小型系统，可能会出现错误并导致问题。

自动化的权衡

自动化有时感觉像魔法，但实际上需要仔细的权衡分析、规划、培训和风险分析才能安全有效地使用。以下是一些评估自动化概念权衡的一般规则：
- 自动化的概念本质 ：人类在每次注释时都应增加真正的价值，如果注释过于重复，就需要改变，自动化是其中一种选择。
- 设置成本 ：所有自动化都需要某种形式的设置，包括使用培训、实施工作和了解技术风险的时间。即使设置最简单的自动化也需要一定程度的培训和对其假设的理解。
- 如何进行良好的基准测试 ：过去常将自动化与 100% 手动完成项目进行比较，但如今 100% 手动注释整个项目很少见。然而，自动化方法仍常以相对于这种虚构的 100% 手动注释的节省百分比来呈现。
- 如何根据问题范围确定自动化 ：要确保自动化的范围与问题相匹配。
- 如何考虑纠正时间 ：在评估自动化效果时，需要考虑纠正自动化产生的错误所需的时间。
- 方法的叠加 ：方法叠加可能会增加成本和风险，需要谨慎考虑。

无论使用何种自动化（包括 GPT），主题专业知识仍然是必需的。在实际应用中，要充分认识到自动化的优势和局限性，结合具体情况选择合适的方法，以提高训练数据的质量和效率，推动 AI 项目的顺利进行。

AI 训练数据：核心要点与自动化方法解析

自动化方法的选择与实施步骤

在实际应用中，选择合适的自动化方法并正确实施至关重要。以下是选择和实施自动化方法的一般步骤：

问题识别 ：明确在训练数据处理过程中遇到的具体问题，如日常工作过多、注释成本高、数据发现困难等。可以参考前面提到的问题与解决方案表格进行初步判断。
方法匹配 ：根据问题类型，结合各种自动化方法的特点和适用场景，选择合适的方法。例如，如果是注释工作繁琐，可考虑交互式自动化或预标注；如果是注释质量差，则可选择质量保证工具。
评估可行性 ：评估所选方法的可行性，包括数据和传感器配置是否满足要求、成本是否可接受、是否需要对数据有额外假设等。对于特定领域的自动化技术，尤其需要仔细评估。
设置与培训 ：进行自动化方法的设置，包括使用培训、实施工作和了解技术风险的时间。确保相关人员熟悉自动化工具和流程。
实施与监控 ：实施自动化方法，并对其效果进行监控。观察是否达到预期结果，是否出现风险和问题。
调整与优化 ：根据监控结果，对自动化方法进行调整和优化。如果发现效果不佳或出现问题，及时分析原因并采取相应措施。

以下是 mermaid 格式的流程图，展示了自动化方法选择与实施的详细流程：

graph LR
    A[识别训练数据问题] --> B{问题类型}
    B -->|日常工作多等| C(预标注)
    B -->|注释工作繁琐等| D(交互式自动化)
    B -->|注释质量差| E(质量保证工具)
    B -->|数据发现需求| F(数据发现)
    B -->|难以获取原始数据| G(模拟和合成数据)
    C --> H{评估可行性}
    D --> H
    E --> H
    F --> H
    G --> H
    H -->|可行| I(设置与培训)
    H -->|不可行| J(重新选择方法)
    I --> K(实施与监控)
    K --> L{效果评估}
    L -->|达到预期| M(持续使用)
    L -->|未达到预期| N(调整与优化)
    N --> K

自动化与主题专业知识的结合

尽管自动化方法在训练数据处理中具有重要作用，但主题专业知识仍然不可或缺。主题专家能够提供对数据的深入理解和专业判断，帮助识别数据中的关键信息和异常情况。在自动化过程中，主题专家可以参与以下方面的工作：

数据标注指导 ：在预标注和交互式自动化过程中，主题专家可以提供标注的标准和指导，确保标注的准确性和一致性。
模型验证 ：质量保证工具发现的模型新见解需要主题专家进行验证和解释，以确保其可靠性和实用性。
异常情况处理 ：当自动化方法遇到异常情况时，主题专家可以根据其专业知识进行判断和处理，避免错误的积累和传播。

案例分析

为了更好地理解自动化方法在实际中的应用，以下通过一个简单的案例进行说明。

假设一家电商公司希望利用 AI 技术对商品图片进行分类，以便更好地管理商品库存和推荐商品。在这个项目中，他们面临着大量商品图片需要标注的问题，人工标注成本高且效率低。

问题识别 ：商品图片标注工作繁琐，人工成本高，需要提高标注效率和质量。
方法选择 ：根据问题特点，选择预标注和交互式自动化方法。预标注可以利用已有的模型对图片进行初步分类，减少人工标注的工作量；交互式自动化可以让标注人员通过简单的操作快速完成标注，提高标注效率。
实施过程 ：
- 首先，使用预标注模型对商品图片进行初步分类，生成标注建议。
- 然后，标注人员使用交互式自动化工具，根据标注建议进行快速标注。例如，标注人员可以通过绘制框的方式选择商品区域，系统自动生成更精确的多边形标记。
- 最后，使用质量保证工具对标注结果进行检查，发现并纠正错误。
效果评估 ：通过实施自动化方法，该电商公司的商品图片标注效率提高了 50%，标注质量也得到了显著提升。同时，由于减少了人工标注的工作量，标注成本降低了 30%。

总结与展望

自动化方法在 AI 训练数据处理中具有巨大的潜力，可以帮助创建稳健的流程、减少繁琐的工作量并提高质量。然而，自动化并非万能，需要仔细权衡其利弊，并结合主题专业知识进行应用。在选择和实施自动化方法时，需要考虑以下几点：

明确问题：准确识别训练数据处理过程中遇到的问题，选择合适的自动化方法。
评估可行性：考虑数据和传感器配置、成本、假设等因素，确保所选方法的可行性。
关注风险：认识到自动化可能带来的风险，如缺乏净提升、结果更差、成本超支等，并采取相应的措施进行防范。
结合专业知识：主题专业知识在自动化过程中起着关键作用，应充分发挥主题专家的作用。

未来，随着技术的不断发展，自动化方法将不断完善和创新。例如，更智能的预标注模型、更高效的交互式自动化工具和更强大的质量保证工具将不断涌现。同时，自动化方法与其他技术的结合也将更加紧密，如与深度学习、计算机视觉等技术的融合，将为 AI 训练数据处理带来更多的可能性。我们应密切关注这些发展趋势，不断探索和应用新的自动化方法，以提高 AI 训练数据的质量和效率，推动 AI 技术的发展和应用。