训练数据:从概念到实践的深度解析
1. 监督学习与人类监督
对于技术人员而言,监督学习常被理解为算法能够获取答案密钥,例如输入 - 输出对。但这里更关注的是人类监督这一方面。训练数据在某些情况下可与其他方法结合以发现新概念,但总体上主要还是用于重复已知的工作。
在这个领域,质量保证的方法高度分散,存在许多相互竞争的方法和观点。通常,会从手动技术逐步转向更自动化、“自我修复”的多阶段流程。例如,标注过程的工作流如图 6 - 3 所示(此处虽未看到图,但可想象其展示了一个有序的流程)。
一旦了解了训练数据的基础知识,就会很快发现一个明显的瓶颈:实际的标注工作。为了加快这一核心流程,已经有了许多方法,不过这些选择可能会变得非常复杂。标注工作是训练数据中最常被误解但也最重要的部分之一。
2. 人类监督训练数据与经典数据集的区别
在数据科学工作中,“监督、半监督、无监督”这些术语经常出现。任何人类干预都属于某种形式的监督,比如构建数据结构、选择特征或手动设计损失函数。这里所说的“人类监督”,指的是人类对数据进行监督,而不考虑后续用于建模数据的技术方法。
人类监督的训练数据与经典数据集不同,它是全新的,有着不同的目标、涉及不同的技能集并使用不同的算法方法。
2.1 发现与自动化
在典型的经典机器学习案例中,我们通常不知道答案是什么,希望去发现它。而在新的人类监督案例中,我们已经知道什么是正确的,希望以数据科学可处理的方式构建这种理解,即产生训练数据。
例如,在经典案例中,我们不知道某人的电影偏好,所以希望去发现;或者不知道是什么导致了某种天气模式,想要去探究。 </
超级会员免费看
订阅专栏 解锁全文
964

被折叠的 条评论
为什么被折叠?



