算法:偏抽象的概念,是计算机解决问题的步骤和流程。
模型:偏具体的概念,用代码去实现某一个算法!
数学本质:
y = f(x)
x:是样本的特征
y:是样本的标签
把x映射为y
机器学习的项目流程
Step1:项目分析
先关注外部特性:
输入是什么?
输出是什么?
分类项目?
回归项目?
Step2:数据收集
根据输入和输出,构建数据集
本质上:数理统计问题
采集总体的一个样本集,通过样本集的统计量来估计总体的统计量。
分层采样
结构化数据:成行成列
每行一个样本:
独立同分布
每列一个特征:
独立的
离散型变量:
不同的状态值
高/低
连续性变量:
长度、