体育初创公司与学术竞赛:训练数据的应用与启示
1. 体育分析公司的预标注数据应用
体育分析公司通过使用视频的预标注数据取得了显著成效。他们大幅减少了绘制边界框的时间,几乎趋近于零,从而将标注时间用于处理那些能直接为其应用增加价值的属性。这一成果的取得历经数年。此案例表明自动化在实际应用中是可以取得成功的,并且长期来看,大部分工作集中在标注以及序列/事件预测上,而非空间定位。
2. Kaggle TSA 竞赛概述
2017 年,数据科学竞赛平台 Kaggle 举办了有史以来规模最大的全球竞赛,奖金高达 150 万美元,吸引了 518 支顶尖团队参与。竞赛的官方主题是“提高美国国土安全部威胁识别算法的准确性”。技术上,基于 3D 毫米波扫描仪的数据在机场安检中检测威胁。数据以每次扫描 64 张预处理图像切片的形式提供,多数人将其视为普通的 RGB 图像。主要目标是在给定一组新扫描数据的情况下,高度准确地检测出存在的威胁及其位置,预测目标包括定位到 17 个位置区域中的一个,但这些区域是抽象的,不反映任何现有的空间训练数据。
机场安检扫描仪显示屏通常大部分为空,显示“OK”表示高度确信无威胁;特定位置出现框则表示“可能无威胁,但需额外检查”。竞赛的目标是尽量减少人工干预,提高流程效率和乘客体验,这需要具有极低误报和漏报率的高度可靠算法。
3. 训练数据的关键作用
在竞赛中,训练数据至关重要,所有顶尖方法都围绕它展开。获胜方法以数据增强为核心,许多排名靠前的方法使用了新的人工标注来捕捉空间数据。竞争十分激烈,有一个团队因数千次分类中有一次错误分类而错失 10 万美元的奖项。
排名前 10%的大多数方法在性能上较为相似,获胜者主要进行了多模态集成等与竞赛相关的工作。在这种情况下,仅通过创建训练数据标注就有可能获得高排名。例如,手动使用边界框对数据进行标注(除了提供的数据之外),利用这些新标注的空间数据可以创建非常简单的模型设置,一个模型预测是否存在威胁,另一个模型预测威胁在身体上的位置。
与大多数 Kaggle 竞赛获胜往往取决于数据科学本身的特定因素(如模型参数等)不同,此次竞赛获胜者对实际使用的模型架构提及较少,更多地关注了训练数据。
4. 训练数据对商业效率的启示
这类竞赛的常见批评是获胜方法在实际应用中不实用,往往涉及过多不合理的计算,或者过度拟合竞赛所定义问题的特定情况。然而,在 2017 年,使用“现成”的目标检测器,仅改变训练数据,就能在几天内击败或至少与其他方法相匹配,这几乎就像一个合法的“作弊代码”。
从商业效率角度来看,这意味着不必将每个数据集视为无边界的科学研究项目,而是可以简化为计算所需的标注工作量,再加上合理的模型训练估计量。这一观点至今仍然成立,也是该技术受到广泛商业关注的核心原因。
5. 学习经验与教训
- 数据添加的收益递减 :在一定程度上,添加新的训练数据对性能提升有显著效果,但之后会达到收益递减的点。例如,仅对“威胁”进行高级类别标注,难以针对特定类型的威胁改进模型;对已经覆盖良好的案例添加更多训练数据作用不大。现在应创建一个能直接解决这些情况的模式,以便从统计上了解每个案例的覆盖程度,而不是仅凭“直觉”。
- 不良训练数据的危害 :不良训练数据会造成极大且不成比例的损害。有时图像可能包含没有正确标签、标签不一致或位置错误的情况,这些错误会产生负面影响,一个错误示例通常需要三个或更多正确示例才能抵消。
6. 关键概念与建议总结
- 灵活模式的重要性 :静态模式会限制创新,训练数据需要灵活、可扩展的模式。
- 数据相似性 :原始生产数据应与训练数据集中的原始数据相似,在系统设计早期就应考虑这一点。
- 避免错误思维 :初创公司常见的错误是试图通过“工程手段”解决问题,而不是采用以训练数据为中心或数据为中心的方法。
- 团队协作 :大型组织围绕训练数据记录系统进行团队协作,比缓慢、重复且易出错的“自由放任”方法更好。
- 跟踪问题 :不良示例会对模型造成不成比例的损害,跟踪特定模式属性内的问题,以便从错误中学习并更轻松地持续改进训练数据。
- 设计优化 :精心设计模式、工作流程和质量保证对整体成功至关重要。
总体而言,现实世界的训练数据复杂且微妙,这些经验能为实际应用提供有价值的见解。
以下是一个简单的 mermaid 流程图,展示竞赛中训练数据处理的大致流程:
graph LR
A[获取竞赛数据] --> B[数据预处理]
B --> C[训练数据标注]
C --> D[模型训练]
D --> E[模型评估]
E --> F{评估结果是否满意}
F -- 是 --> G[提交结果]
F -- 否 --> C
在这个流程中,数据预处理包括将扫描数据转换为合适的格式;训练数据标注可以采用人工标注或预标注的方式;模型训练根据标注数据进行;模型评估使用评估指标来判断模型性能;如果评估结果不满意,则返回重新进行标注和训练。
另外,为了更清晰地展示不同团队在竞赛中的表现差异,我们可以创建一个简单的表格:
| 团队排名 | 关键方法 | 特点 |
| ---- | ---- | ---- |
| 获胜团队 | 数据增强 | 围绕训练数据进行增强操作,提高模型性能 |
| 排名靠前团队 | 人工标注空间数据 | 使用新的人工标注捕捉空间信息 |
| 某失误团队 | - | 因一次分类错误错失高额奖金 |
体育初创公司与学术竞赛:训练数据的应用与启示
7. 训练数据相关概念与技术详解
在训练数据的领域中,有众多概念和技术相互交织,共同影响着整个流程。
7.1 数据类型与存储
数据类型丰富多样,包括 BLOB(Binary Large Object)数据,它涵盖了 3D 点、图像、视频、医疗文件、文本等。以图像为例,BLOB 数据可用于存储图像的原始信息。在存储方面,有多种方式可供选择,如远程存储、本地存储等。对于原始数据,存储时需考虑地理定位、存储类、供应商支持等因素,还可以选择按引用传递或按值传递的方式。以下是一个简单的数据存储方式对比表格:
| 存储方式 | 优点 | 缺点 |
| ---- | ---- | ---- |
| 远程存储 | 可共享、便于备份 | 依赖网络、可能存在安全风险 |
| 本地存储 | 访问速度快、安全性高 | 容量有限、不易共享 |
7.2 数据标注与自动化
数据标注是训练数据的重要环节,有多种标注方式。直接标注可用于处理业务流程和属性;视频标注则涉及跟踪对象、处理事件等。自动化在标注中也发挥着重要作用,如预标注技术,可分为标准预标注和对部分数据的预标注。以下是预标注的操作步骤:
1. 选择合适的预标注模型,如“现成”的目标检测器。
2. 对部分数据进行预标注,可使用分离关注点的方法,提高效率。
3. 根据预标注结果,进行数据更新和调整。
自动化还包括多种方法,如领域特定方法、媒体特定方法等。自动化的评估指标包括设置成本、校正时间、风险等。其流程可以用以下 mermaid 流程图表示:
graph LR
A[确定自动化需求] --> B[选择自动化方法]
B --> C[进行自动化操作]
C --> D[评估自动化结果]
D --> E{结果是否满意}
E -- 是 --> F[应用自动化成果]
E -- 否 --> B
7.3 数据监督与质量保证
数据监督是确保数据质量的关键。有直接监督和间接监督等方式,还可以结合人类监督和自动化监督。质量保证则需要对标注人员进行管理,将其视为合作伙伴,建立信任关系。同时,要跟踪数据中的错误,及时进行修正。以下是一个简单的数据监督和质量保证流程:
1. 对标注人员进行培训,使其熟悉标注任务和标准。
2. 对标注数据进行抽样检查,发现错误及时反馈给标注人员。
3. 建立数据监督机制,定期对数据质量进行评估。
4. 根据评估结果,对标注人员进行奖励或惩罚。
8. 不同角色在训练数据中的作用
在训练数据的整个生态系统中,不同角色发挥着不同的作用。
| 角色 | 职责 | 关键能力 |
|---|---|---|
| 数据科学家 | 设计模型、分析数据 | 数据处理、模型训练、算法设计 |
| 标注人员 | 对数据进行标注 | 理解标注任务、准确标注 |
| 应用工程师 | 将模型应用到实际场景中 | 系统开发、集成能力 |
| 利益相关者 | 提供需求、评估结果 | 业务理解、决策能力 |
数据科学家需要根据业务需求设计合适的模型,并对数据进行深入分析。标注人员则是数据标注的执行者,他们的工作质量直接影响模型的训练效果。应用工程师负责将训练好的模型集成到实际系统中,确保其稳定运行。利益相关者则从业务角度出发,提供需求和评估模型的效果。
9. 训练数据的未来展望
随着技术的不断发展,训练数据领域也将迎来新的机遇和挑战。未来,训练数据的模式将更加灵活,能够更好地适应不同的业务需求。同时,自动化技术将得到更广泛的应用,提高标注效率和数据质量。另外,数据安全和隐私保护也将成为重要的关注点,确保训练数据在使用过程中的安全性和合规性。
在实际应用中,我们可以借鉴这些经验和技术,不断优化训练数据的流程和方法,提高模型的性能和效果,为各个领域的发展提供有力支持。
综上所述,训练数据在各个领域都有着至关重要的作用。通过深入了解其应用案例、技术细节和角色分工,我们可以更好地应对实际工作中的挑战,推动训练数据技术的不断发展。
超级会员免费看
833

被折叠的 条评论
为什么被折叠?



