机器学习算法和流程
一、机器学习流程
机器学习的主要流程是 明确分析目标、数据收集、数据预处理、建模分析、结果评估、部
署使用以及学习更新。
二、机器学习怎么做
1.明确数据分析目标
2.数据收集
3.数据预处理
4.数据建模
5.效果评估
6.部署使用、更新
三、机器学习常用算法
1.机器学习算法分类
2.分类算法
决策树、支持向量机、神经网络、朴素贝叶斯、 Bayes网络、k- 最近邻 等是几种常用的分类方法。
3.常用分类算法典型应用
4.聚类算法
聚类是基于无监督学习的分类模型,按照数据内在结构特征进行聚集形成簇群。 聚类与分类的主要区别:有无标签(监督学习与无监督学习的区别)。聚类首先选择有效特征向量,然后按照距离函数进行相似度计算。
常见聚类算法
基于 层次聚类 (Hierarchical Method)
BIRCH(Balanced Iterative Reducing and Clustering Using Hierarchies)
CURE(Clustering Using Representatives)
基于划分的聚类
K均值(K-Means)
基于密度的聚类
DBSCAN(Density-based spatial clustering of applications with noise)
OPTICS(Ordering Points To Identify the Clustering Structure)
基于机器学习的聚类
基于约束的聚类
基于网络的聚类
三、神经网络
传统的神经网络为BP神经网络,基本网络结构为输入层、隐藏层和输出层,节点代表神经元、边代表权重值,对输入值按照权重和偏置计算后将结果传给下一层,通过不断的训练修正权
重和偏置。递归神经网络(RNN)、卷积神经网络(CNN)都在神经网络在深度学习上的变种。 神经网络的训练主要包括前向传输 和 反向传播 。
神经网络的结果准确性与训练集的样本数量和分类质量有关。
神经网络是基于历史数据构建的分析模型,新数据产生时需要动态优化网络的结构和参数。
四、数据挖掘常用算法
1.神经网络
2.深度学习
深度学习是通过构建多个隐藏层和大量数据来学习特征,从而提升分类或预测
的准确性。 与神经网络相比,层数更多,而且有逐层训练机制避免梯度扩散。
深度学习包括:卷积神经网络(CNN),深度神经网络(DNN) ,循环神经网络(RNN),对抗神经网络(GAN)
深度学习中训练集、开发集、测试集的样本比例一般为6:2:2、7:2:1、8:1:1。
常见的权重更新方式包括SGD with Momentum。
五、分布式机器学习
分布式机器学习(DML)是一种利用多个计算节点协 同工作,共同完成机器学习任务的算法和系统。
其核心思想是将数据和计算任务分发到多个节点上 , 然后协调它们的工作以完成模型训练。
六、数据挖掘常用算法
1.基于内容的推荐算法
2.协同过滤推荐算法
3.基于矩阵分解的推荐算法
4.混合推荐算法
七、机器学习常见问题
数据质量问题与预处理
机器学习常见陷阱
机器学习方法的选择
机器学习结果的评价
八、数据质量问题与预处理
数据量较少
数据挖掘需要一定的数据量作支撑,尽量覆盖领域。
数据量增多,其中的规律会越发明显,也更易发现与分析目标相关的因素
神经网络
深度学习
一般来说,数据量是自变量数量的10~20倍为佳。
数据样本需要有足够的覆盖范围,需要覆盖与分析目标相关的维度。
• 数据量过多
数据量过多时,对全部数据集进行分析 要耗费更多的计算资源,要求硬件配置较高 ,可应用数
据采样技术 随机提取样本子集 。
对海量的同质化数据,可通过 聚集技术按照时间、空间等属性进行均值等汇总,减少数据数量 。
数据集不平衡问题可能导致出现较大的结果误差,因此要对数据集应用采样技术或对异常数
据进行复制,提高其占比。
• 维度灾难
当数据中的 自变量较多时 ,会出现维度灾难问题。
特别是在矩阵数据中,其中冗余变量占比比较高时,可用数据变成稀疏矩阵,在分类算
法处理时就没办法可靠地进行类别划分,在聚类算法中则容易使聚类质量下降。
可采用线性代数的相关方法将 数据从高维空间影射到低维空间中
主成分分析(PCA)
奇异值分解(SVD)
• 数据不完整
数据的种类要多 ,种类多少直接影响数据挖掘方法的选择,可以通过编写程
序抓取外部数据作为补充。
数据缺失 也是数据不完整的一种表现,包括了 空白值、空值、无效值 等。
需要针对不同原因 对缺失值进行数据预处理 ,有多种方法可以操作
采用 众数、中位数、均值、最短距离 等方法进行人为补充
通过 回归或贝叶斯定理等预测缺失值
删除含有缺失值的数据
• 异常数据
异常数据分为 错误的数据 和 小概率
事件(又称稀有事件)两类
对 错误数据 ,需要将其 剔除或修正
对 稀有事件 ,如 信用卡欺诈行为、
垃圾邮件,需要重点分析其特征
统计分析
一、统计分析的基本概念
统计学习基于数据分布 样本规模影响模型精度 偏差与方差权衡重要 正则化避免过拟合
二、统计学习方法三要素
1.模型
数据决定模型上限,算法优化模型性能
2.策略
策略选择影响模型性能 数据分布影响策略有效性 特征选择优化策略表现
3.算法
算法复杂性与过拟合
统计学习算法的重要性
非参数方法与泛化能力
数据量与算法性
三、模型假设与验证
模型的假设条件
1.模型假设的重要性
在机器学习中,模型假设是预测准确性的基石。例如,线性回归假设变量问存在线性关系,
通过数据验证假设,可保保模型的有效应用。
2.数据分布影响假设
模型假设需符合实际数据分布,如支持向量机假设数据在高维空间可分,数据分布的多样性直接影响假设的合理性。
3.交叉验证验证假设
通过交叉验证技术,如K折交叉验证,可以评估模型假设在不同数据集上的泛化能力,确保模型假设的稳健 .
交叉验证的原理
交叉验证防过拟合 交叉验证评估模型性能 交叉验证适用多种场景
四、模型评估与选择
经验误差与过拟合
1.交叉验证避免过拟合
交叉验证通过多次分割数据训练和测试模型,有效评估模型的泛化能力,避免选择过度拟合训练数据的模型。
2.准确性与泛化性平衡
在模型评估中,我们追求的是不仅在训练集上表现良好,更要在未知数据上保持准确,实现准确性与泛化性的最佳平衡。
3.ROC曲线全面评估
ROC曲线综合考虑了不同分类阈值下的真正例率和假正例率,是评估二分类模型性能的全面工具。
模型评估与选择:误差分析
模型评估与选择:模型选择准则
1.偏差-方差权衡
2.交叉验证防过拟合
3.奥卡姆剃刀原则
五、生成模型
生成模型与数据分布
生成模型与分类器比较
生成模型在深度学习中的应用
生成模型的评估标准
生成模型:贝叶斯估计
1.贝叶斯估计依赖先验知识
2.贝叶斯估计具有可解释性
3.贝叶斯估计能够处理小样本
4.贝叶斯估计的迭代性
生成模型:EM算法
1.EM算法原理概述
2.EM算法应用广泛
3.EM算法收敛性保障
六、判别模型
判别模型:极大似然估计
1.判别模型在分类中更高效
判别模型如SVM直接学习条件概率,避免了联合概率分布的复杂计算,因此在分类任务中表现出更高的效率和准确性。
2.判别模型对特征选择敏感
型性能至关重要.判别模型如逻辑回归依赖于特征的线性组念,对特征选择敏感,合理的特征选择对模型性能至关重要。
判别模型:条件概率分布
条件概率影响分类器性能
条件概率分布有助于揭示变量问的依赖关系,对于数据分析和特征选择具有重要意义
通过条件概率分布,机器学习算法可以 更准确地区分不同类别的样本,提高分类器的预测精度。
Logistic回归与最大熵模型
1.Logistic回归与分类决策
2.最大熵原理与信息最大化
3.特征选择与模型性能
4.正则化与模型泛化