机器学习中的多元分类与概念学习探索
1. 超越二元分类的描述性模型
在机器学习领域,二元分类是一项重要任务,但还有许多其他相关任务值得探讨。这里将介绍两种描述性模型,一种是从标记数据中进行有监督学习得到的,另一种则是完全无监督学习的。
1.1 子组模型
子组模型并不试图近似标记函数,而是旨在识别数据中类分布与总体显著不同的子集。形式上,子组是一个映射 ˆg : D →{true, false},它从一组标记示例 (xi, l(xi)) 中学习,其中 l : X →C 是真实的标记函数。ˆg 是集合 G = {x ∈ D | ˆg(x) = true} 的特征函数,G 被称为子组的扩展。由于这是一个描述性模型,我们使用给定数据 D 而非整个实例空间 X 作为子组的定义域。
例如,在营销新产品时,我们有一个包含之前产品信息接收者的数据库,其中有各种人口统计、经济和社会信息,以及他们是否购买了产品。如果构建分类器或排序器来寻找最可能的客户,可能无法超越多数类分类器(通常购买产品的人相对较少)。但我们真正感兴趣的是找到客户比例显著高于总体的合理规模子集,然后在营销活动中针对这些人,忽略数据库的其余部分。
子组本质上是一个二元分类器,开发子组发现系统的一种方法是调整现有的分类器训练算法,这可能只需调整搜索启发式以反映子组的特定目标(识别类分布显著不同的数据子集)。不过,这只能得到一个子组。规则学习器特别适合子组发现,因为每个规则都可以解释为一个单独的子组。
为了区分有趣和无趣的子组,可以构建一个类似于二元分类中使用的列联表。对于三个类,该表如下所示:
| | 在子组中 | 不在子组中 | 总计 |
| —
超级会员免费看
订阅专栏 解锁全文
8634

被折叠的 条评论
为什么被折叠?



