###机械学习算法和流程
机械学习流程:明确分析目标、数据收集、数据预处理、建模分析、结果评估、部
署使用以及学习更新。
机械学习常用算法
机械学习算法分类
分类算法
常有分类算法典型应用
神经网络:前向传输和反向传输
数据挖掘常用算法:神经网络和深度学习
多层前馈神经网络
常见的深度学习神经网络
卷积神经网络
循环神经网络
深度学习:深度学习是通过构建多个隐藏层和大量数据来学习特征,从而提升分类或预测的准确性。
与神经网络相比,层数更多,而且有逐层训练机制避免梯度扩散。深度学习包括了
卷积神经网络(CNN),深度神经网络(DNN),循环神经网络(RNN),对抗神经网络(GAN)
机械学习常用算法:
#聚类算法
聚类分析是把一个给定的数据对象(样本)集合分成不同的簇(组)。
聚类就是把整个数据分成不同的组,并使组与组之间的差距尽可大,组内数据的差异尽可能小。
常见聚类算法:基于层次聚类,基于划分的聚类,基于密度的聚类,基于机器学习的聚类,基于约束的聚类,基于网络的聚类
#回归分析
回归分析是一种研究自变量和因变量之间关系的预测模型,用于分析当自变量发 变化时,因变量的变化值,回归分析可以用于定性预测分析和定量分析各变量间的相关关系
回归分析包括:线性回归逻辑回归,多项式回 上,逐步回归,岭回归,LASSO回归
#数据可视化
#关联分析
分布式机械学习:将数据和计算认为分发到多个节点上
数据挖掘常用算法:基于内容的推荐,基于矩形分解的推荐算法,混合推荐算法
机械学习常见问题:数据质量问题与预处理,机器学习常见陷阱,机器学习方法的选择,机器学习结果的评价
数据质量问题与预处理
数据量较少 ,数据量过多,维度灾难,数据不完整,异常数据,重复数据,数据不一致
数据分析常见陷阱(1)
错误理解相关关系,事物间的相关性并不意味着存在因果关系,
错误的比较对象,数据抽样
数据分析常见陷阱(2)
忽略或关注极值,相信巧合数据,数据未做归一化,忽视第三方数据,过度关心统计指标
机械学习方法的选择
###机械学习中的统计学习理论
01.统计分析的基本概念
统计学习的定义:计学习基于数据分布 本规模影响模型精度 偏差与方差权衡重要 正则化避免过拟合
1.监督学习需标签数据
2.无监督学习探索结构
3.半监督学习结合二者
4.强化学习试错优化
02.统计学习方法三要素
统计学习方法三要素:模型,策略,算法
模型:数据决定模型上限,算法优化模型性能
策略:策略选择影响模型性能 ,数据分布影响策略有效性 ,特征选择优化策略表现
算法:算法复杂性与过拟合,统计学习算法的重要性,非参数方法与泛化能力,数据量与算法性能
03.模型假设与验证
模型的假设条件
1.模型假设的重要性
2.数据分布影响假设
3.交叉验证验证假设
交叉验证的原理
交叉验证防过拟合 交叉验证评估模型性能 交叉验证适用多种场景
04.模型评估与选择
经验误差与过拟合
1.交叉验证避免过拟合
2.准确性与泛化性平衡
3.ROC曲线全面评估
模型评估与选择:误差分析
过拟合与欠拟合
使用验证集调参
模型评估与选择:模型选择准则
1.偏差-方差
2.交叉验证防过拟合
3.奥卡姆剃刀原则
05.生成模型
生成模型:生成模型与数据分布 ,生成模型与分类器比较,生成模型在深度学习中的应用 , 生成模型的评估标准
生成模型:贝叶斯估计
生成模型:EM算法
06.判别模型
判别模型:极大似然估计
1.判别模型在分类中更高效
2.判别模型对特征选择敏感
判别模型:条件概率分布
Logistic回归与最大熵模型
1.Logistic回归与分类决策
2.最大熵原理与信息最大化
3.特征选择与模型性能
4.正则化与模型泛化
07.统计学习在实际中的应用
统计学习在实际中的应用:领域应用概述
1.推荐系统精准化
2.信贷风险评估
3.医疗图像诊断
4.股票趋势预测
统计学习在实际中的应用:数据分析案例
特征选择优化性能 ,模型复杂度与泛化能力 ,正则化防止过拟合 ,交叉验证评估模型