机器学习笔记(一):问题分类

一、监督学习

监督学习擅长在“给定输入特征”的情况下预测标签。 每个“特征-标签”对都称为一个样本。 有时,即使标签是未知的,样本也可以指代输入特征。 我们的目标是生成一个模型,能够将任何输入特征映射到标签,即预测。

1. 回归

当标签取任意数值时,我们称之为回归问题。 判断回归问题的一个很好的经验法则是,任何有关“多少”的问题很可能就是回归问题。

2. 分类

在分类问题中,我们希望模型能够预测样本属于哪个类别。最简单的分类问题是只有两类,我们称之为“二元分类”。当我们有两个以上的类别时,我们把这个问题称为多元分类问题。

3. 标记问题

预测不相互排斥的类别的问题称为多标签分类。

4. 搜索问题

在海量搜索结果中找到用户最需要的那部分。 搜索结果的排序也十分重要,我们的学习算法需要输出有序的元素子集。

5. 推荐系统

向特定用户进行“个性化”推荐。

6. 序列学习

输入是连续的,序列学习需要摄取输入序列或预测输出序列,或两者兼而有之。 具体来说,输入和输出都是可变长度的序列。

二、非监督学习

数据中不含有“目标”的机器学习问题为无监督学习。

1. 聚类问题

在没有标签的情况下,给数据分类。
比如,给定一组照片,我们能把它们分成风景照片、狗、婴儿、猫和山峰的照片吗?同样,给定一组用户的网页浏览记录,我们能否将具有相似行为的用户聚类呢?

2.主成分分析问题

我们能否找到少量的参数来准确地捕捉数据的线性相关属性?比如,一个球的运动轨迹可以用球的速度、直径和质量来描述。再比如,裁缝们已经开发出了一小部分参数,这些参数相当准确地描述了人体的形状,以适应衣服的需要。另一个例子:在欧几里得空间中是否存在一种(任意结构的)对象的表示,使其符号属性能够很好地匹配?这可以用来描述实体及其关系,例如“罗马” “意大利” “法国” “巴黎”。

3.因果关系和概率图模型问题

我们能否描述观察到的许多数据的根本原因?例如,如果我们有关于房价、污染、犯罪、地理位置、教育和工资的人口统计数据,我们能否简单地根据经验数据发现它们之间的关系?

4.生成对抗性网络

为我们提供一种合成数据的方法,甚至像图像和音频这样复杂的非结构化数据。潜在的统计机制是检查真实和虚假数据是否相同的测试,它是无监督学习的另一个重要而令人兴奋的领域。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值