一、机器学习概述
1. 根据有无标签,可分为:
(1)有标签,有监督学习;
训练有标签值样本数据,并得到模型,通过模型对新样本进行推断。
(2)无标签,无监督学习;
训练没有标签值的数据,并发现样本数据的结构和分布。
(3)混合,半监督学习;
结合无监督学习和监督学习。
2. 四大类算法
(1)有监督,回归和分类;
连续型数据的为回归,离散型的为分类。
(2)无监督,降维和聚类;
无监督学习中的样本数据没有标签,如果目标是寻找规律、简化数据,这类问题是降维;
如果是将样本分成不同的组别,则为聚类问题。
3. 机器学习一般流程
(1)收集数据:
- 从数据源获取数据集,这可能包括数据清理、去除无效数据和处理缺失值等。
(2)特征工程:
-
对数据进行预处理,包括数据转换、特征选择、特征提取和特征缩放等。
(3)数据划分:
- 将数据集划分为训练集、验证集和测试集等。训练集用于训练模型,验证集用于选择模型并进行调参,测试集用于评估模型的性能。