什么是机器学习?
;官方解释:
·机器学习就是从“数据”中自动分析获得规律,利用规律对未知的数据进行预测。
- 模型:算法模型,是一个特殊的对象,该算法模型对象中已经集成了或封装好了某种形式的算法/方程(还没有求出解)
- 模型的作用:
- 预测:可以通过方程或者算法产生一个新的位置的数据/事物
- 分类:可以将一个未知归类的事物给其归属到一个已有的类群中
- 注意:算法模型对应的算法或者方程求出的解就是预测或者分类的结果
- 样本数据:
- 模型的训练,将样本数据带入到模型中,对其进行训练(给方程进行求解),模型训练好了后,则模型方程就有唯一解或者最优解。有解后则模型就可以实现分类或者预测功能
- 构成:
- 特征数据:自变量
- 标签/目标数据:因变量
- 模型的分类:
- 有监督学习
- 如果模型需要的样本数据必须包含特征数据和标签数据,则该模型为有监督学习分类
- 无监督学习
- 模型样本只需要要特征数据即可,目标数据有或者无都可以
- 数据集的获取途径:
- kaggle:数据竞赛平台
- UCI数据集
- sklearn
机器学习工作流程:
·获取数据
·数据基本处理
·特征工程
·机器学习
·模型评估
特征工程:
·定义:把数据转换为机器更容易识别的数据
·特征抽取
·数据特征预处理–特征降维
·选择特征
·为什么需要特征工程?
- 样本数据中的特征工程可能会存在缺失值,异常值等等,那么我们是需要对特征工程中的相关的噪点进行数据处理的,那么处理的目的就是为了营造出一个更纯净的样本,让模型基于这个数组可以有更好的预测能力,当然特征工程不是单单只是处理上述操作。
特征工程的意义:
·直接影响模型预测的结果
如何实现特征工程?
·工具:sk-learn
sklearn介绍:
- 是python语言中机器学习的工具,包含了许多知名的机器学习算法的实现,其文档完善,容易上手。
- 功能:
·分类模型
·回归模型
·聚类模型
·特征工程
·特征抽取目的:
·我们所采集到样本中的特征往往是字符串或者其他类型的数据,而我们知道电脑只能识别二进制数值型的数据,如果把字符串给电脑,电脑是看不懂的。
·机器学习算法分类:
·监督学习
·无监督学习
·半监督学习
·强化学习
·监督学习:输入的数据由目标值和特征值组成
·回归:函数的输入可以是一个连续的值
·分类:输出是有限个离散值
·半监督学习:有特征值,但是一部分数据有目标值,一部分没有
·无监督学习:仅有特征值
·强化学习:agent action environment rewaed
·模型评估:
·分类模型评估
·准确率:
·预测正确的数占样本总数的比例
·精确率
·正确预测为正确占全部预测为正的比例
·召回率
·正确预测为正占全部样本的比例
·F1-score
·主要用于评估模型的稳健性
·AUC指标
·主要用于评估样本不均衡的情况
·回归模型评估
均方根误差
相对平方误差
平均结对误差
相对绝对误差
决定系数
·拟合:
欠拟合:机器学习的特征太少了,区分标准粗糙,不能准确识别
过拟合:机器学习的特征太多了,验证数据及其测试数据中表现不佳