人工智能三大概念
-
人工智能(AI)
仿智,运用计算机模拟或者代替人类
-
机器学习(ML)
自动学习,非人为规则编程
-
深度学习(DL)
大脑仿生,设计一层一层的神经元模拟万事万物
基于规则,基于模型
机器学习常用术语
-
样本、特征
-
标签、训练集和测试集
机器学习算法分类
-
有监督学习
-
无监督学习
-
半监督学习
-
强化学习
机器学习建模流程
-
获取数据
搜集与需求相关的数据集
-
数据基本处理
处理数据中异常值,缺失值处理
-
特征工程
对数据特征进行提取、转成向量、让模型达到最好效果
-
机器学习
选择合适算法对模型进行训练,例如K近邻算法、线性回归、决策树等
-
模型评估
评估是否达到预想值,若未达到重复上述步骤
-
在线服务模型预测
特征工程
对任务有用的属性信息,利用专业指示和技巧处理数据
-
特征提取
原始数据中提取与任务相关的特征,构成特征向量
-
特征预处理
因量纲问题,有些特征对模型影响大/小,归一化或标准化处理
-
特征降维
将原始数据维度降低,一般会对原始数据产生影响
-
特征选择
原始数据特征较多,与任务相关是其中一个特征集合子集,不会改变原数据
-
特征组合
多个特征合并成一个特征,利用乘法或加法来完成
模型拟合
-
欠拟合
模型在训练集上表现很差,在测试集表现也很差
-
过拟合
模型在训练集表现很好,在测试集表现很差
-
正好拟合
模型对样本点拟合情况
泛化
模型在新数据集(非训练数据)上的表现好坏能力