名词
训练集 测试集
特征 数值型、二值型、枚举型
目标变量 标称型、连续型
监督学习
分类和回归。这类算法知道预测什么,及分类
无监督学习
没有类别信息,也没有目标值。做聚类
算法选择
- 考虑算法的目的 -> 预测值:监督学习 否则:无监督学习
- 目标变量类型:
监督:
如果目标变量是离散型的,如是/否、1/2/3、A/B/C,则选择分类器算法
如果目标变量是连续型的,如-999~999,则选择回归算法
非监督:
需要划分为离散组,则使用聚类算法
需要估计数据和每组的相似程度,则使用密度估计算法 - 数据:
特征值是离散还是连续型的,缺失值、异常值
步骤
- 收集数据
- 准备输入数据
- 分析输入数据
- 训练算法
- 测试算法
- 使用算法
NumPy函数库
from numpy import *
rendMat = mat(random.rand(4,4)) //生成一个4,4矩阵
invRendMat = rendMat.I //生成rendMat的逆矩阵
myEye = rendMat * invRendMat
myEye - eye(4) //查看误差值,eye(4)生成了4*4的单位矩阵