机器学习与数据挖掘算法设计
1. 引言
机器学习是一门既致力于发现支配学习行为的基本规律,又专注于设计能够从经验中学习的机器的科学。这与物理学类似,物理学既探索宇宙的规律,又利用这些知识制造广义上的机器。“理解”和“制造”这两个方面紧密相连,一个方面的进展通常会促进另一方面的发展。不过,机器学习科学家可能会更倾向于从“理论化机器学习”到“实现机器学习”这一范围中的某一端。
机器学习与数据科学息息相关,它本质上是一门归纳科学,试图从一组数据中揭示普遍规律和关系。它既关注如何利用极少的示例进行学习,也关注如何处理大量数据。因此,“大数据”并不等同于机器学习。这里我们不深入探讨数据收集和预处理的问题,而是假设数据已经经过处理,不会因数据的不完美而过度影响模式挖掘。
在探讨如何设计学习算法之前,先了解一些经典的机器学习场景是很有意义的。
2. 经典机器学习场景
学习场景由学习者与环境之间的交互来定义,通常与系统的目标任务相关。
2.1 监督学习
学习者从环境中接收一组示例 $S = {(x_i, y_i)}_{1\leq i\leq m}$,每个示例由一组解释变量或输入变量 $x_i$ 和输出变量 $y_i$ 组成。学习者的目标是根据输入变量预测输出变量的值。例如,学习者可能接收医院患者的数据,形式为(患者测量值,诊断结果),并旨在为新患者提供准确的诊断。
2.2 无监督学习
无监督学习的目标不是从输入值预测输出值,而是揭示数据集 $S = {x_1, \ldots, x_m}$ 中可能存在的隐藏结构,或检测变量之间的相关性。即使这些潜在结构或规律有时可以推
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



