机器学习概述
1.机器学习算法与流程
机器学习主要流程:明确分析目标、数据收集、数据预处理、建模分析、结果评估、部
署使用以及学习更新。
2.机器学习的常用算法
分类算法:就是通过分析训练集中的数据,为每个类别做出准确的描述或建立分析模型或挖掘出分 类规则,然后用这个分类规则对其它数据对象进行分类。
聚类算法:把整个数据分成不同的组,并使组 与组之间的差距尽可大,组内数据的差异尽可能小聚类是基于无监督学习的分类模型,按照数据内在结构特征进行聚集形成簇群。 聚类与分类的主要区别:有无标签(监督学习与无监督学习的区别)。聚类首先选择有效特征向量,然后按照距离函数进行相似度计算。
神经网络和深度学习
神经网络:

深度学习:

回归分析:
回归分析是一种研究自变量和因变量之间关系的
预测模型,用于分析当自变量发生变化时,因变量的变化值。
回归分析包括:
线性回归
逻辑回归
多项式回归
逐步回归
岭回归
LASSO回归
关联分析:
关联分析(Associative Analysis )通过对数据集中某些属性同时出现的规律和模式
来发现其中的属性间的关联、相关、因果等关系,典型应用是购物篮分析。其中包括(Apriori算法和FP-Growth算法)。
3.推荐算法


4.机器学习常见问题
数据质量问题与预处理(数据过少、数据过多、维度灾难、数据不完整、异常数据)
机器学习常见陷阱(错误理解相关关系、错误的比较对象 、数据抽样 、忽略或关注极值 、相信巧合数据 、数据未做归一化 、忽视第三方数据、过度关心统计指标)
机器学习方法的选择(监督式学习、无监督式学习)
机器学习结果的评价