机器学习中的一些专业词汇的定义（2019/07/14上午学习总结）

最新推荐文章于 2025-07-10 03:49:09 发布

原创最新推荐文章于 2025-07-10 03:49:09 发布 · 281 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#学习笔记

机器学习专栏收录该内容

6 篇文章

订阅专栏

本文介绍机器学习相关知识，包括特征、分类与回归、目标变量等概念。分类问题预测离散结果，回归问题预测连续值。目标变量分标称型和数值型。还阐述了训练集、训练与测试数据的作用，重点讲解有监督学习和无监督学习的定义、分类、区别及适用场景。

特征（属性）:

例如体重，身高，年龄等，用来描述一个对象的属性的值。

分类与回归：

分类问题：预测的结果是离散的
用于将事物打上一个标签，通常结果为离散值。例如判断一幅图片上的动物是一只猫还是一只狗，分类通常是建立在回归之上，分类的最后一层通常要使用softmax函数进行判断其所属类别。分类并没有逼近的概念，最终正确结果只有一个，错误的就是错误的，不会有相近的概念。最常见的分类方法是逻辑回归，或者叫逻辑分类。
回归问题：预测的结果是连续的
通常是用来预测一个值，如预测房价、未来的天气情况等等，例如一个产品的实际价格为500元，通过回归分析预测值为499元，我们认为这是一个比较好的回归分析。一个比较常见的回归算法是线性回归算法（LR）。另外，回归分析用在神经网络上，其最上层是不需要加上softmax函数的，而是直接对前一层累加即可。回归是对真实值的一种逼近预测。

目标变量：

目标变量是机器学习算法的预测结果，在分类算法中目标变浪的类型通常是标称型的，而在回归算法中通常是连续型（数值型）的。
标称型：标称型目标变量的结果只在有限目标集中取值，如真与假(标称型目标变量主要用于分类)
数值型：数值型目标变量则可以从无限的数值集合中取值，如0.100，42.001等 (数值型目标变量主要用于回归分析)
通常将分类问题中的目标变量称为类别，并假定分类问题只存在有限个数的类别。

训练集：

适用于训练机器学习算法的数据样本集合，会包含很多的训练样本（特征或属性通常是训练样本集的列，他们是独立测量得到的结果，多个特征联系在一起共同组成一个训练样本，通常也就是一行。）

训练数据与测试数据：

为了测试机器学习算法的效果，通常使用两套独立的样本集：训练数据与测试数据。当机器学习程序开始运行时，使用训练样本集作为算法的输入，训练完成后输入测试样本，输入测试样本时并不会提供测试样本的目标变量（也可称为标签或类别），由程序决定样本属于哪个类别。比较测试样本预测的目标变量值与实际样本类别之间的差别，就可以得出算法的实际精确度。
通常用train_test_split方法将整体的数据用随机抽取的方法分为训练数据和测试数据。

监督学习与非监督学习：

监督学习定义：
根据已有的数据集，知道输入和输出结果之间的关系。根据这种已知的关系，训练得到一个最优的模型。也就是说，在监督学习中训练数据既有特征(feature)又有标签(label)，通过训练，让机器可以自己找到特征和标签之间的联系，在面对只有特征没有标签的数据时，可以判断出标签。通俗一点，可以把机器学习理解为我们教机器如何做事情。
监督学习的分类：回归( Regression）、分类（Classification)
无监督学习定义：
我们不知道数据集中数据、特征之间的关系，而是要根据聚类或一定的模型得到数据之间的关系。
无监督学习：聚类（Clustering），主成分分析（PCA，Principal Component Analysis）和一些深度学习算法
两者的不同点：
可以这么说，比起监督学习，无监督学习更像是自学，让机器学会自己做事情，是没有标签（label）的。

有监督学习方法必须要有训练集与测试样本。在训练集中找规律，而对测试样本使用这种规律。而非监督学习没有训练集，只有一组数据，在该组数据集内寻找规律。
有监督学习的方法就是识别事物，识别的结果表现在给待识别数据加上了标签。因此训练样本集必须由带标签的样本组成。而非监督学习方法只有要分析的数据集的本身，预先没有什么标签。如果发现数据集呈现某种聚集性，则可按自然的聚集性分类，但不予以某种预先分类标签对上号为目的。
非监督学习方法在寻找数据集中的规律性，这种规律性并不一定要达到划分数据集的目的，也就是说不一定要“分类”。这一点是比有监督学习方法的用途要广。
譬如分析一堆数据的主分量，或分析数据集有什么特点都可以归于非监督学习方法的范畴。
用非监督学习方法分析数据集的主分量与用K-L变换计算数据集的主分量又有区别。后者从方法上讲不是学习方法。因此用K-L变换找主分量不属于无监督学习方法，即方法上不是。而通过学习逐渐找到规律性这体现了学习方法这一点。在人工神经元网络中寻找主分量的方法属于无监督学习方法。（这一段还没明白）
何时采用哪种方法：
简单的方法就是从定义入手，有训练样本则考虑采用监督学习方法；无训练样本，则一定不能用监督学习方法。但是，现实问题中，即使没有训练样本，我们也能够凭借自己的双眼，从待分类的数据中，人工标注一些样本，并把它们作为训练样本，这样的话，可以把条件改善，用监督学习方法来做。对于不同的场景，正负样本的分布如果会存在偏移（可能大的偏移，可能比较小），这样的话，监督学习的效果可能就不如用非监督学习了。

参考资料：