python学习笔记day01(2020-10-14)——人工智能——机器学习概述
1、人工智能概述
1.1 人工智能、机器学习、深度学习
机器学习是人工智能的一个实现途径
深度学习是机器学习的一个方法发展而来
1.2 人工智能的分支
分支一:计算机视觉——人脸识别
分支二:语音识别——百度语音识别
分支三:文本挖掘/分类——语音语义识别
分支四:机器翻译
分支五:机器人
1.3 人工智能必备三要素
-
数据
-
算法
-
计算力
1.4 课外补充:CPU和GPU对比
CPU主要用于IO读写文件,GPU主要用于计算
什么类型的程序适合在GPU上运行?
(1)计算密集型程序,需要大量计算
(2)易于并行的程序
2、机器学习工作流程
2.1 什么是机器学习
机器学习是从数据中自动分析获得模型,并利用模型对未知数据进行预测
2.2 工作流程

(1)获取数据
(2)数据基本处理
(3)特征工程
(4)机器学习(模型训练)
(5)模型评估
2.3 获取到的数据集介绍
在数据集中一般:
-
一行数据称为一个样本
-
一列数据称为一个特征
-
有些数据有目标值(标签值),有些数据没有目标值
数据类型构成:
-
数据类型一:特征值+目标值(目标值是连续的或离散的)
-
数据类型二:只有特征值,没有目标值
数据分割:
训练数据:用于训练,构建模型
测试数据:用于评估模型是否有效
划分比例:
训练集:70% 80% 75%
测试集:30% 20% 25%
2.4 特征工程
包含内容:
(1)特征提取——将数据转换为计算机能识别的数据类型
(2)特征预处理——通过一些转换函数将特征数据转换成更加适合算法模型的特征数据过程
(3)特征降维——在某些限定条件下,降低随机变量(特征)个数,得到一组”不相关“主变量过程
3、机器学习算法分类
(1)监督学习——有特征值、目标值
-
输入数据由输入特征值和目标值组成
-
回归——函数的输出可以是一个连续的值(称为回归)
-
分类——或是输出的是有限个离散值(称为分类)
-
(2)无监督学习——仅有特征值
-
输入数据是由输入特征值组成
-
聚类
-
(3)半监督学习——有特征值,但是一部分数据有目标值,一部分没有
(4)强化学习
动态过程,上一步数据的输出是下一步数据的输入
四要素:agent, action, environment, Reward
4、机器学习模型评估
4.1 分类模型评估
-
准确率:预测正确的数占样本总数比例
-
精确率:正确预测为正占全部预测为正的比例
-
召回率:正确预测为正占全部正样本的比例
-
F1-score:主要用于评估模型稳健性
-
AUC指标:主要用于评估样本不均衡的情况
4.2 回归模型评估
-
均方根误差
-
相对平方误差
-
平均绝对误差
-
相对绝对误差
-
决定系数
5、拟合
5.1 欠拟合
机器学到的特征太少了,不能准确识别
5.2 过拟合
机器将某些特殊特征学到,分类太过
6、机器学习基础环境安装与使用
6.1 库的安装
pycharm中打开命令窗口
使用pip install numpy安装numpy 库
其他的库同样方法安装