机器学习的基本概念

机器学习的基本概念

感谢前辈们百忙中抽空做的ppt

1. 基本概念

​ 通俗的讲,机器学习就是让计算机从数据中进行自动学习,得到某种知识(或规律)。作为一门学科,机器学习通常指如何从观测数据(样本)中寻找规律,并利用学习到的规律(模型)对未知或者无法观测数据进行预测,这类问题的解决方法。

​ 机器学习一般包括监督学习无监督学习强化学习

​ 监督学习是从标注数据(已知数据特征和结果)中学习预测模型的机器学习问题,标注数据表示输入输出的对应关系,预测模型对给定输入产生相应的输出。监督学习的本质是学习输入到输出的映射的统计规律

在这里插入图片描述

在这里插入图片描述

​ 无监督学习是从无标注数据中学习预测模型的机器学习问题,无标注数据是自然得到的数据,预测模型表示数据的类别、转换或概率。无监督学习的本质是学习数据中的统计规律或潜在结构

在这里插入图片描述

在这里插入图片描述

强化学习指智能系统在与环境的连续互动中学习最优行为策略的机器学习问题,本质为学习最优的序贯策略。

在这里插入图片描述

2. 机器学习的三个基本要素

​ 机器学习是从有限的观测数据或(猜测)出具有一般性的规律,并可与将总结出来的规律推广到观测样本上。机器学习的方法可以粗略的分为三个基本要素:模型,学习准则,优化算法

1. 模型

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

2. 学习准则

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

一个好的模型应该有一个较低的期望风险,但是因为不知道真实的数据分布和映射函数,所以期望风险实际上无法计算,所以引入了经验风险:

在这里插入图片描述

我们的目标是找到一个最优参数θ*来使得经验风险最小:

在这里插入图片描述

这就是经验风险最小化准则。

在这里插入图片描述

根据大数定理,当训练数据接近于无穷时,经验风险趋向于期望风险。但是通常情况下,训练数据是有限的,并且隐含着一定的噪声,所以训练数据可能并不能很好的反映真实数据的分布情况,所以期望风险最小化准则就很容易造成在训练集上错误率很低,但是在预测的时候错误率很高。也就是过拟合。

为了尽可能减小过拟合风险,我们一般在经验风险最小化的基础上再加入正则化项。这就是结构风险最小化准则。

在这里插入图片描述

分类拟合图像:

在这里插入图片描述

所以机器学习准则不仅仅是看训练数据拟合的好不好,更要看泛化性能。

3. 优化方法:梯度下降

确定了训练数据,学习准则,如何找到最优模型f(x,θ*)拟合数据就成为了一个最优化问题。

很多机器学习方法都倾向于选择一个合适的模型和损失函数,以构造一个以凸函数为优化的目标。但是很多情况下优化的函数是非凸的,比如神经网络,对于非凸的函数,我们很难找到最优解,只能退而求其次,选择局部最优解。在机器学习中,最常用的优化方法是梯度下降法。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

刚刚我们提到的梯度下降法属于批量梯度下降,除了批量梯度下降外,还有随机梯度下降、小批量(Mini-Batch )梯度下降。

批量梯度下降的特点:一次参数优化需要学习所有的样本。

随机梯度下降的特点:一次参数优化只学习一个样本。

Mini-Batch 梯度下降的特点:介于批量梯度下降算法和随机梯度下降算法之间的算法,通过学习一小批样本,更新一次参数 𝜃 。

3. 模型的评估和选择

为了衡量一个机器学习模型的好坏(泛化性),需要给定一个测试集,用模型对测试集中的每一个样本进行预测,并根据预测值和真实值的差距计算评价分数。

1. 评价指标-分类

在分类问题中,常见的评价指标有:准确率、精确率、召回率、F1指标和混淆矩阵。

精确率和召回率不可以同时提高。

  • 提高召回率(减少漏检)通常需要放宽分类阈值,导致更多假阳性(FP增加),从而降低精确率。
  • 提高精确率(减少误判)通常需要严格阈值,导致更多假阴性(FN增加),从而降低召回率。

在这里插入图片描述

假设一个瓜地有50个西瓜,共有30个好瓜,20个坏瓜,通过模型判断得到如下结果:

在这里插入图片描述

准确率 Accuracy:所有正确分类的样本与总样本数比例。(表示整体判断的正确性,综合了好瓜和坏瓜的预测结果。)
在这里插入图片描述

精确率 Precision:我们预测为正样本中有多少是正确的概率。(关注的是“被预测为好瓜的瓜”中有多少是真正的好瓜。)
在这里插入图片描述

召回率(Recall):实际为正的样本中被预测为正样本的概率。(关注的是“所有的好瓜”中有多少被正确找出来了。)

在这里插入图片描述

F1(F1-Measure): F1值就是 精确值 和 召回率 的调和均值。

在这里插入图片描述

2. 评价指标-回归

在回归问题中,常见的评价指标有:均方误差(MSE),均方根误差(RMSE)。

均方误差(MSE):均方误差是反映估计量与被估计量之间差异程度的一种度量。
在这里插入图片描述

均方根误差(RMSE): 衡量预测值同真实值之间的偏差。(保证了量纲一致性 )

在这里插入图片描述

4. 额外解释

1. 偏导数与全微分

函数在点x0处的微分dy表示曲线在该点处切线纵坐标的增量。

在这里插入图片描述

如果一个曲面在x0,y0点附近的图像,可以用一个平面来近似。那么这个平面就被称为曲面在x0,y0点的微分,又称为全微分。

两条相交直线能决定一个平面。

求全微分需要求对y的偏微分和对x的偏微分
在这里插入图片描述

下图是对x的偏微分

在这里插入图片描述

在多变量微积分中,以下导数被称为函数在(x0,y0)点对x的偏导数

在这里插入图片描述

完整定义如下
在这里插入图片描述

那么对x的偏微分则为骗到苏乘以自变量的增量dx

d z = f x ( x 0 , y 0 ) d x dz=f_x(x_0,y_0)dx dz=fx(x0,y0)dx

最后求得全微分的表达式

d z = f x ( x 0 , y 0 ) d x + f y ( x 0 , y 0 ) d y dz=f_x(x_0,y_0)dx+f_y(x_0,y_0)dy dz=fx(x0,y0)dx+fy(x0,y0)dy

在这里插入图片描述

2. 梯度

曲面上的点沿c2方向的变化率,就是函数f在其方向u2上的方向导数。

在这里插入图片描述

在可微分的情况下,方向导数可以被偏导数线性表示。

α \alpha α β \beta β是函数的两个偏导数与方向向量u的夹角。

在这里插入图片描述

梯度的值是方向导数的最大值

将原式改写成点乘形式,表示方向导数是向量v在eu上的投影

在这里插入图片描述

假设向量v和向量eu的夹角为 θ \theta θ
在这里插入图片描述

易知向量v的模长即为方向导数中的最大值

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

参考

ppt

如何理解偏导数、全微分|马同学图解微积分

机器学习:基本概念,损失函数,特征工程 燕双嘤

下载方式:https://pan.quark.cn/s/a4b39357ea24 在纺织制造领域中,纱线的品质水平对最终制成品的整体质量具有决定性作用。 鉴于消费者对于产品规格和样式要求的不断变化,纺织制造工艺的执行过程日益呈现为一种更为复杂的操作体系,进而导致对纱线质量进行预测的任务变得更加困难。 在众多预测技术中,传统的预测手段在面对多变量间相互交织的复杂关系时,往往显得力不从心。 因此,智能计算技术在预测纱线质量的应用场景中逐渐占据核心地位,其中人工神经网络凭借其卓越的非线性映射特性以及自适应学习机制,成为了众多预测方法中的一种重要选择。 在智能计算技术的范畴内,粒子群优化算法(PSO)和反向传播神经网络(BP神经网络)是两种被广泛采用的技术方案。 粒子群优化算法是一种基于群体智能理念的优化技术,它通过模拟鸟类的群体觅食行为来寻求最优解,该算法因其操作简便、执行高效以及具备优秀的全局搜索性能,在函数优化、神经网络训练等多个领域得到了普遍应用。 反向传播神经网络则是一种由多层节点构成的前馈神经网络,它通过误差反向传播的机制来实现网络权重和阈值的动态调整,从而达成学习与预测的目标。 在实际操作层面,反向传播神经网络因其架构设计简洁、实现过程便捷,因此被广泛部署于各类预测和分类任务之中。 然而,该方法也存在一些固有的局限性,例如容易陷入局部最优状态、网络收敛过程缓慢等问题。 而粒子群优化算法在参与神经网络优化时,能够显著增强神经网络的全局搜索性能并提升收敛速度,有效规避神经网络陷入局部最优的困境。 将粒子群优化算法与反向传播神经网络相结合形成的PSO-BP神经网络,通过运用粒子群优化算法对反向传播神经网络的权值和阈值进行精细化调整,能够在预测纱线断裂强度方面,显著提升预测结果的...
植物实例分割数据集 一、基础信息 数据集名称:植物实例分割数据集 图片数量: - 训练集:9,600张图片 - 验证集:913张图片 - 测试集:455张图片 总计:10,968张图片 分类类别:59个类别,对应数字标签0至58,涵盖多种植物状态或特征。 标注格式:YOLO格式,适用于实例分割任务,包含多边形标注点。 数据格式:图像文件,来源于植物图像数据库,适用于计算机视觉任务。 二、适用场景 • 农业植物监测AI系统开发:数据集支持实例分割任务,帮助构建能够自动识别植物特定区域并分类的AI模型,辅助农业专家进行精准监测和分析。 • 智能农业应用研发:集成至农业管理平台,提供实时植物状态识别功能,为作物健康管理和优化种植提供数据支持。 • 学术研究与农业创新:支持植物科学与人工智能交叉领域的研究,助力发表高水平农业AI论文。 • 农业教育与培训:数据集可用于农业院校或培训机构,作为学生学习植物图像分析和实例分割技术的重要资源。 三、数据集优势 • 精准标注与多样性:标注采用YOLO格式,确保分割区域定位精确;包含59个类别,覆盖多种植物状态,具有高度多样性。 • 数据量丰富:拥有超过10,000张图像,大规模数据支持模型充分学习和泛化。 • 任务适配性强:标注兼容主流深度学习框架(如YOLO、Mask R-CNN等),可直接用于实例分割任务,并可能扩展到目标检测或分类等任务。
室内物体实例分割数据集 一、基础信息 • 数据集名称:室内物体实例分割数据集 • 图片数量: 训练集:4923张图片 验证集:3926张图片 测试集:985张图片 总计:9834张图片 • 训练集:4923张图片 • 验证集:3926张图片 • 测试集:985张图片 • 总计:9834张图片 • 分类类别: 床 椅子 沙发 灭火器 人 盆栽植物 冰箱 桌子 垃圾桶 电视 • 床 • 椅子 • 沙发 • 灭火器 • 人 • 盆栽植物 • 冰箱 • 桌子 • 垃圾桶 • 电视 • 标注格式:YOLO格式,包含实例分割的多边形标注,适用于实例分割任务。 • 数据格式:图片为常见格式如JPEG或PNG。 二、适用场景 • 实例分割模型开发:适用于训练和评估实例分割AI模型,用于精确识别和分割室内环境中的物体,如家具、电器和人物。 • 智能家居与物联网:可集成到智能家居系统中,实现自动物体检测和场景理解,提升家居自动化水平。 • 机器人导航与交互:支持机器人在室内环境中的物体识别、避障和交互任务,增强机器人智能化应用。 • 学术研究与教育:用于计算机视觉领域实例分割算法的研究与教学,助力AI模型创新与验证。 三、数据集优势 • 类别多样性:涵盖10个常见室内物体类别,包括家具、电器、人物和日常物品,提升模型在多样化场景中的泛化能力。 • 精确标注质量:采用YOLO格式的多边形标注,确保实例分割边界的准确性,适用于精细的物体识别任务。 • 数据规模充足:提供近万张标注图片,满足模型训练、验证和测试的需求,支持稳健的AI开发。 • 任务适配性强:标注格式兼容主流深度学习框架(如YOLO系列),便于快速集成到实例分割项目中,提高开发效率。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

cllsse

富✌您吉祥

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值