机器学习总结笔记之概念描述
人工智能主要分支
1.知识图谱
2.语音识别
3.人脸识别
4.用户画像
cpu与gpu
cpu – IO密集型
gpu – 计算密集型
机器学习工作流程
1.获取数据
2.数据基本处理
3.特征工程
4.机器学习(模型训练)
5.模型评估
数据基本处理即对数进行缺失值、去除异常值等处理
特征工程
1.定义
使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程
2.分类
特征提取
将任意数据(如文本或图像)转换为可用于机器学习的数字特征
特征预处理
通过一些转换函数将特征数据转换成更加适合算法模型的特征数据过程
特征降维
指在某些限定条件下,降低随机变量(特征)个数,得到一组“不相关”主变量的过程
机器学习模型选择 – 机器学习算法分类
监督学习 – 有特征值,有目标值
回归问题 – 目标值是连续
分类问题 – 目标值是离散的
无监督学习 – 有特征值,无目标值
半监督学习 – 有特征值,但是一部分数据有目标值,其他数据没有目标值
强化学习 – 根据动态数据
主要关注四个元素:
agent,environment, action, reward
模型评估
分类模型评估
精确率 – 查的准 召回率 – 查的全 F1-score – 评判模型的稳健性
回归模型评估
MSE – 均方误差
RMSE – 均方根误差
MAE – 平方绝对误差
拟合
举例 – 判断是否是人
欠拟合
学习到的东西太少
学习到的特征少
解决办法:继续学习
过拟合
学习到的东西太多
学习到的特征多,不好泛化
解决办法:
1.重新清洗数据
2.增大数据的训练量
3.减少特征维度,防止维灾难