1机器学习基础—2统计学习方法概论

本文介绍了机器学习的基础概念,包括监督学习与无监督学习的区别,以及它们的应用场景。详细解释了分类与回归的任务特点,并对统计学习方法进行了概述,涵盖了模型选择策略和常用的学习算法。

一、机器学习基础

1.监督学习一般使用两种类型的目标变量:标称型和数值型。

在分类算法中目标变量的类型通常是标称型的,而在回归算法中通常是连续性的。

2.分类和回归都属于监督学习。分类是将实例数据划分到合适的分类中,回归主要用于预测数值型数据。

与监督学习相对应的是无监督学习,此时数据没有类别信息,也不会给定目标值。在无监督学习中,将数据集合分成由类似的对象组成的多个类的过程被称为聚类;将寻找描述数据统计值的过程称之为密度估计。此外,无监督学习还可以减少数据特征的维度,以便我们可以使用二维或三维图形更加直观地展示数据信息。

3.numpy函数库基础

rand()函数构造随机数组;mat()函数可以将数组转化为矩阵。

二、统计学习方法概论+感知机

1.统计学习总的目标就是考虑学习什么样的模型和如何学习模型,以使模型能对数据进行准确的预测与分析,同时也要考虑尽可能地提高学习效率。

2.统计学习的方法是基于数据构建统计模型从而对数据进行预测与分析。统计学习由监督学习、非监督学习、半监督学习和强化学习等组成。

3.监督学习下统计学习的方法可以概括如下:从给定的、有限的、用于学习的训练数据集合出发,假设数据是独立同分布产生的;并且假设要学习的模型属于某个函数的集合,称为假设空间;应用某个评价准则,从假设空间种选取一个最优的模型,使它对已知训练数据及未知测试数据在给定的评价准则下有最优的预测;最优模型的选取由算法实现。

这样,统计学习方法包括模型的假设空间、模型选择的准则以及模型学习的算法,称其为统计学习方法的三要素,简称为模型、策略和算法。

(1)模型:统计学习首要考虑的问题是学习什么样的模型。在监督学习过程中,模型就是所要学习的条件概率分布或决策函数。模型的假设空间包含所有可能的条件概率分布或决策函数;

称由决策函数表示的模型为非概率模型,由条件概率表示的模型为概率模型。

(2)策略:统计学习的目标在于从假设空间中选取最优模型。

损失函数(代价函数)与风险函数(期望损失):损失函数度量模型一次预测的好坏;风险函数度量平均意义下模型预测的好坏。

(3)

4.输入变量X和输出变量Y有不同的类型,可以是连续的,也可以是离散的。人们根据输入、输出变量的不同类型,对预测任务给予不同的名称:

输入变量与输出变量均为连续变量的预测问题称为回归问题;

输出变量为有限个离散变量的预测问题称为分类问题;

输入变量与输出变量均为变量序列的预测问题称为标注问题。

5.监督学习分为学习和预测两个过程,由学习系统与预测系统完成。

6.两种常用的模型选择方法:正则化与交叉验证。

7.监督学习方法可以分为生成方法和判别方法,所学到的模型分别称为生成模型和判别模型。

直接对问题进行求解,比如二类分类问题,不管是感知器算法还是逻辑斯谛回归算法,都是在解空间中寻找一条直线从而把两种类别的样例分开,对于新的样例只要判断在直线的哪一侧即可,这种直接对问题求解的方法可以称为判别学习方法。判别方法由数据直接学习决策函数f(X)或者条件概率分布P(Y|X)作为预测的模型,即判别模型。判别方法关心的是对给定的输入X,应该预测什么样的输出Y,典型的判别模型包括:k-近邻法、感知机、决策树、逻辑斯谛回归模型,最大熵模型,支持向量机,提升方法和条件随机场等。

而生成学习算法则是对两个类别分别进行建模,比如分别计算两类肿瘤是否扩散的概率,计算肿瘤大小大于某个值的概率等等;再比如狗与大象的分类,分别对狗与大象建模,比如计算体重大于某个值的概率,鼻子长度大于某个值的概率。生成方法由数据学习联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测的模型,即生成模型:P(Y|X)=P(X,Y)/P(X),这样的方法之所以称为生成模型,是因为模型表示了给定输入X产生输出Y的生成关系。典型的生成模型有:朴素贝叶斯法和隐马尔可夫模型。形式化的说,判别学习方法是直接对 p(y|x)进行建模或者直接学习输入空间 到输出空间的映射关系,其中,x 是某类样例的特征,y 是某类样例的分类标记。 而生成学习方法是对 p(x|y)(条件概率)和 p(y)(先验概率)进行建模,然后按 照贝叶斯法则求出后验概率 p(y|x)。

8.习题

【轴承故障诊断】基于融合鱼鹰和柯西变异的麻雀优化算法OCSSA-VMD-CNN-BILSTM轴承诊断研究【西储大学数据】(Matlab代码实现)内容概要:本文提出了一种基于融合鱼鹰和柯西变异的麻雀优化算法(OCSSA)优化变分模态分解(VMD)参数,并结合卷积神经网络(CNN)与双向长短期记忆网络(BiLSTM)的轴承故障诊断模型。该方法利用西储大学公开的轴承数据集进行验证,通过OCSSA算法优化VMD的分解层数K和惩罚因子α,有效提升信号分解精度,抑制模态混叠;随后利用CNN提取故障特征的空间信息,BiLSTM捕捉时间序列的动态特征,最终实现高精度的轴承故障分类。整个诊断流程充分结合了信号预处理、智能优化与深度学习的优势,显著提升了复杂工况下轴承故障诊断的准确性与鲁棒性。; 适合人群:具备一定信号处理、机器学习及MATLAB编程基础的研究生、科研人员及从事工业设备故障诊断的工程技术人员。; 使用场景及目标:①应用于旋转机械设备的智能运维与故障预警系统;②为轴承等关键部件的早期故障识别提供高精度诊断方案;③推动智能优化算法与深度学习在工业信号处理领域的融合研究。; 阅读建议:建议读者结合MATLAB代码实现,深入理解OCSSA优化机制、VMD参数选择策略以及CNN-BiLSTM网络结构的设计逻辑,通过复现实验掌握完整诊断流程,并可进一步尝试迁移至其他设备的故障诊断任务中进行验证与优化。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值