机器学习中的二元分类与相关任务
一、机器学习的要素与特征
在机器学习里,特征起着至关重要的作用。没有特征,模型就无从谈起,有时候仅一个特征就足以构建一个模型。但实际情况中,数据并非总是自带现成的特征,很多时候我们需要对特征进行转换,甚至重新构建。这使得机器学习往往成为一个迭代的过程,只有在构建好模型之后,我们才能确定是否捕捉到了合适的特征。如果模型的表现不尽如人意,就需要分析其性能,找出特征需要改进的方向。
二、机器学习任务概述
机器学习能够解决广泛的任务,像电子邮件垃圾邮件识别就是一个分类任务,我们需要从训练数据中学习合适的分类器。常见的分类器类型有线性分类器、贝叶斯分类器、基于距离的分类器等,这些不同类型被称为模型。分类只是众多可学习模型的任务之一,本章还会探讨类概率估计和排序,后续还会涉及回归、聚类和描述性建模等任务。
三、基本概念与符号
- 实例空间、标签空间和输出空间
- 机器学习中关注的对象通常称为实例,所有可能实例的集合就是实例空间,用 X 表示。例如,X 可以是使用拉丁字母编写的所有可能电子邮件的集合。
- 标签空间 L 用于监督学习中对示例进行标记,输出空间 Y 则是模型从实例空间映射到的空间。在分类任务中,输出空间是一组类别;在回归任务中,输出空间是实数集。
- 为了学习模型,需要一个由标记实例 (x, l(x)) 组成的训练集 Tr,其中 l : X → L 是标记函数。
- 不同场景
超级会员免费看
订阅专栏 解锁全文
1236

被折叠的 条评论
为什么被折叠?



