6.1 机器学习简介
6.2 数据集处理
6.3 探索性数据分析EDA
EDA是为了获得对数据的初步了解。常用的方法包括:
- 描述性统计:平均数、中位数、模式、标准差。
- 数据可视化:热力图(辨别特征内部相关性)、箱形图(可视化群体差异)、散点图(可视化特征之间的相关性)、主成分分析(可视化数据集中呈现的聚类分布)等。
- 数据整形:对数据进行透视、分组、过滤等。
6.4 数据预处理和数据分割
数据预处理(又称数据清理、数据整理或数据处理)是指对数据进行各种检查和审查的过程,以纠正缺失值、拼写错误、使数值正常化/标准化以使其具有可比性、转换数据(如对数转换)等问题。
数据分割包括:训练--测试集分割、训练--验证--测试集分割、交叉验证
6.5 模型建立
6.5.1 学习算法
- 监督学习:建立输入X和输出Y变量之间的数学(映射)关系。有标签数据
- 无监督学习:只利用输入X变量的机器学习任务。X 变量是未标记的数据,学习算法在建模时使用的是数据的固有结构。
- 强化学习:是一种决定下一步行动方案的机器学习任务,它通过试错学习来实现这一目标,努力使回报最大化。
6.6 机器学习任务
在监督学习中,两个常见的机器学习任务包括分类和回归。
6.6.1 分类
6.6.2 回归
Y = f(X)
Y对应量化输出变量,X指输入变量,f指计算输出值作为输入特征的映射函数(从训练模型中得到)