机械学习概论

###机械学习算法和流程

机械学习流程:明确分析目标、数据收集、数据预处理、建模分析、结果评估、部
署使用以及学习更新。

机械学习常用算法

机械学习算法分类

分类算法

常有分类算法典型应用

神经网络:前向传输和反向传输

数据挖掘常用算法:神经网络和深度学习

多层前馈神经网络
常见的深度学习神经网络

卷积神经网络

循环神经网络

深度学习:深度学习是通过构建多个隐藏层和大量数据来学习特征,从而提升分类或预测的准确性。
与神经网络相比,层数更多,而且有逐层训练机制避免梯度扩散。深度学习包括了
卷积神经网络(CNN),深度神经网络(DNN),循环神经网络(RNN),对抗神经网络(GAN)

机械学习常用算法:

#聚类算法

聚类分析是把一个给定的数据对象(样本)集合分成不同的簇(组)。
聚类就是把整个数据分成不同的组,并使组与组之间的差距尽可大,组内数据的差异尽可能小。

常见聚类算法:基于层次聚类,基于划分的聚类,基于密度的聚类,基于机器学习的聚类,基于约束的聚类,基于网络的聚类

#回归分析
回归分析是一种研究自变量和因变量之间关系的预测模型,用于分析当自变量发 变化时,因变量的变化值,回归分析可以用于定性预测分析和定量分析各变量间的相关关系
回归分析包括:线性回归逻辑回归,多项式回 上,逐步回归,岭回归,LASSO回归

#数据可视化

#关联分析

分布式机械学习:将数据和计算认为分发到多个节点上

数据挖掘常用算法:基于内容的推荐,基于矩形分解的推荐算法,混合推荐算法

机械学习常见问题:数据质量问题与预处理,机器学习常见陷阱,机器学习方法的选择,机器学习结果的评价

数据质量问题与预处理
数据量较少 ,数据量过多,维度灾难,数据不完整,异常数据,重复数据,数据不一致

数据分析常见陷阱(1)

错误理解相关关系,事物间的相关性并不意味着存在因果关系,
错误的比较对象,数据抽样

数据分析常见陷阱(2)

忽略或关注极值,相信巧合数据,数据未做归一化,忽视第三方数据,过度关心统计指标

机械学习方法的选择

###机械学习中的统计学习理论

01.统计分析的基本概念

统计学习的定义:计学习基于数据分布 本规模影响模型精度 偏差与方差权衡重要 正则化避免过拟合
1.监督学习需标签数据
2.无监督学习探索结构
3.半监督学习结合二者
4.强化学习试错优化

02.统计学习方法三要素
统计学习方法三要素:模型,策略,算法

模型:数据决定模型上限,算法优化模型性能

策略:策略选择影响模型性能 ,数据分布影响策略有效性   ,特征选择优化策略表现    

算法:算法复杂性与过拟合,统计学习算法的重要性,非参数方法与泛化能力,数据量与算法性能

03.模型假设与验证
模型的假设条件    
1.模型假设的重要性
2.数据分布影响假设
3.交叉验证验证假设

交叉验证的原理
交叉验证防过拟合 交叉验证评估模型性能    交叉验证适用多种场景    


04.模型评估与选择

经验误差与过拟合
1.交叉验证避免过拟合
2.准确性与泛化性平衡
3.ROC曲线全面评估
模型评估与选择:误差分析
过拟合与欠拟合
使用验证集调参
模型评估与选择:模型选择准则
1.偏差-方差

2.交叉验证防过拟合

3.奥卡姆剃刀原则

05.生成模型

生成模型:生成模型与数据分布  ,生成模型与分类器比较,生成模型在深度学习中的应用 , 生成模型的评估标准
生成模型:贝叶斯估计
生成模型:EM算法

06.判别模型

判别模型:极大似然估计
1.判别模型在分类中更高效
2.判别模型对特征选择敏感

判别模型:条件概率分布
Logistic回归与最大熵模型
1.Logistic回归与分类决策

2.最大熵原理与信息最大化

3.特征选择与模型性能

4.正则化与模型泛化

07.统计学习在实际中的应用

统计学习在实际中的应用:领域应用概述
1.推荐系统精准化
2.信贷风险评估
3.医疗图像诊断
4.股票趋势预测

统计学习在实际中的应用:数据分析案例
特征选择优化性能 ,模型复杂度与泛化能力  ,正则化防止过拟合  ,交叉验证评估模型

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值