机器学习
机器学习(machinelearning,ML)是一类强大的可以从经验中学习的技术。通常采用观测数据或与环境交互的形式,机器学习算法会积累更多的经验其性能也会逐步提高。
1.监督学习
监督学习(supervised learning)擅长在“给定输入特征”的情况下预测标签每个“特征-标签”对都称为一个样本(example)。我们的目标是生成一个模型,能够将任何输入特征映射到标签(即预测)。
标注问题:学习预测不相互排斥的类别的问题称为多标签分类(multi-label classification)-个样本(一个图片或者一个候选框)中含有多个物体,标注的label也是多个的,多个类间并不是互斥的。
序列问题:输入和输出都是可变长度的序列、标记和解析、自动语音识别、文本到语音
2.无监督学习:数据中不含有标签的机器学习问题、聚类问题、成分分析问题、因果关系、概率图模型、生成对抗网络、环境互动。
有人一直心存疑虑:机器学习的输入(数据)来自哪里?机器学习的输出又将去往何方?
到目前为止,不管是监督学习还是无监督学习,我们都会预先获取大量数据然后启动模型,不再与环境交互。这里所有学习都是在算法与环境断开后进行的,被称为离线(offlinelearning)。
3.强化学习
智能体在一系列的时间步骤上与环境交互在每个特定时间点,智能体从环境接收一些观察,并且必须选择一个动作,然后通过某种机制(有时称为执行器)将其传输回环境,最后智能体从环境中获得奖励。此后新一轮循环开始,智能体接收后续智能体并选择后续操作,依此类推。
21世纪带来了高速互联网,智能手机摄像头、视频游戏等照片共享网站。数据池正在被填满。廉价又高质量的传感器、廉价的数据存储以及廉价计算的普及,特别是GPU的普及,使大规模的算力唾手可得。
线性回归
损失函数“衡量预估质量损失函数能够量化目标的实际值与预测值之间的差距,例如房屋售价和估价回归问题最常用的损失函数是平方损失作为真实值,作为估计值。
基础优化算法
1.梯度法
神经网络在学习时找到最优的参数(权重和偏置)--指损失函数取最小值时的参数。我们不知道他在何处能取得最小值,所以使用梯度来寻找函数的最小值的方法就是梯度法。
严格的讲,梯度指示的反向是各点处的函数值减小最多的方向。
2.梯度
!!!梯度指示的反向是各点处的函数值减小最多的方向,所以无法保证梯度所指的方向就是函数的最小值或者真正应该前进的方向。但沿着它的方向能最大限度的减小函数的值。所以在寻找函数的最小值的位置任务中,以梯度的信息为线索,决定前进的方向。
流程:在梯度法中,函数的取值从当前位置沿着梯度方向前进一定的距离然后在新的方向重新求梯度,再沿着新梯度的方向前进,如此反复,不断的沿梯度方向前进。
3.随机梯度下降
它通过不断的在损失函数递减的方向上更新参数来降低误差
总结
梯度下降通过不断的沿着反梯度方向更新参数求解小批量随机梯度下降是深度学习默认的求解算法两个重要的超参数是批量大小和学习率。
Softmax回归
Softmax回归是一个多类分类模型使用Softmax操作得到每个类的预测置信度。
回归和分类
独热编码:独热编码:对类别进行一位有效编码类别对应的分量设置为1,其他所有分量设置为0。
损失函数平方损失、L1.L2损失、Huber损失、交叉熵损失
人工智能(AI):通过人工方法赋予机器类人智能,使其能模拟人类决策与学习能力。
人工智能学科目标:研究如何模拟、延伸和扩展人类智能的理论、方法及应用系统,属于技术科学分支。
机器学习中的关键组件:
无论什么类型的机器学习问题,都会遇到这些组件:
1.可以用来学习的数据(data);
2.如何转换数据的模型(model);
3.一个目标函数(objective function),用来量化模型的有效性;
4.调整模型参数以优化目标函数的算法(algorithm)
数据:每个数据集由一个个样本组成,大多时候,它们遵循独立同分布。样本有时也叫做数据点或者数据实例,通常每个样本由一组称为特征(features,或协变量(covariates))的属性组成。
模型:任一调整参数后的程序被称为模型。 这些模型由神经网络错综复杂的交织在一起,包含层层数据转换,因此被称为深度学习。
目标函数
定义一个目标函数,并优化它到最小值一-损失函数。 预测数值任务--平方误差:预测值与实际值之差的平方。 预测分类任务--最小化错误率:预测与实际情况不符的样本比例。 损失函数是根据模型参数定义的,并取决于数据集。在一个数据集上,我们可以通过最小化总损失来学习模型参数的最佳值。
优化算法
当我们获得了一些数据源及其表示、一个模型和一个合适的损失函数,接下来就需要一种算法,它能够搜索出最佳参数,以最小化损失函数。深度学习中, 大多流行的优化算法通常基于一种基本方法--梯度下降(gradient descent) 在每个步骤中,梯度下降法都会检查每个参数。
数据集说明
CIFAR-10数据集由10个类的60000个32x32彩色图像组成,每个类有6000个图像。有50000个训练图像和10000个测试图像。数据集分为5个训练批次和1个测试批次,每个批次有10000个图像。测试批次包含来自每个类别的恰好1000个随机选择的图像。训练批次以随机顺序选取剩余图像,但一些训练批次可能更多会选取来自一个类别的图像。总体来说,五个训练集之和包含来自每个类的正好5000张图像。图6-27 显示了数据集中涉及的10个类,以及来自每个类的10个随机图像。
图像分类: 将不同的图像,划分到不同的类别标签,实现最小的分类误差
图像分类有三层境界:通用的多类别图像分类(基础分类任务,适用于区分差异较大的类别)、子类细粒度图像分类(针对相似子类的精细划分,需更高特征提取能力)、实例级图片分类(
识别具体个体,对模型泛化能力和数据质量要求极高)
分类任务需根据场景选择合适层次,细粒度与实例级分类是当前研究热点,在诸多领域有涉及。
图像分类评估指标之混淆矩阵
TP(True positive,真正例)——将正类预测为正类数。
FP(False postive,假正例)——将反类预测为正类数。
TN(True negative,真反例)——将反类预测为反类数。
FN(False negative,假反例)——将正类预测为反
混淆矩阵:直观展示分类结果,主对角线为正确分类样本,非对角线为误分类。
精确率(Accuracy):精确率是最常用的分类性能指标。可以用来表示模型的精度,即模型识别正确的个数/样本的总个数。一般情况下,模型的精度越高,说明模型的效果越好。整体正确率,但受样本均衡性影响较大。
查准率:(Precision)与查全率(Recall):
查准率衡量“预测为正类中实际为正的比例”,注重准确性;
查全率:Recall衡量“实际正类中被正确预测的比例”,注重覆盖率。
F1 Score与P-R曲线:
1_Score:它被定义为正确率和召回率的调和平均数。
P-R曲线:
·召回率增加,精度下降。
·曲线和坐标轴面积越大,模型越好。
·对正负样本不均衡敏感。
F1调和Precision与Recall,适合不均衡数据;
P-R曲线面积反映模型综合性能,对样本分布敏感。
单一指标易片面,需结合多指标评估模型。
网络深度与宽度:
深度(如LeNet的5层)决定特征抽象能力;
宽度(每层通道数)影响细节捕捉能力。
小样本问题解决方案:
迁移学习:迁移学习:使用预训练模型。ImageNet数据集具有通用性,利用ImageNet预训练模型(如ResNet)加速收敛,减少数据依赖。
数据增强:有监督方法(平移、翻转、亮度、对比度、裁剪、缩放等)简单有效;监督方法(GAN生成)适合复杂场景,但需警惕生成样本质量。
感悟:图像分类识别任务项目从实例化到评估指标再到模型优化从理论到实践一步步递增,然而,实际应用中仍需解决数据稀缺、类别不均衡等问题。根据这几次的项目深刻认识到理论需要千百次实践,技术的应用也要符合实际,要解决数据稀缺、类别不均衡等问题,不断更新完善,才能创造更多价值
【图像分类识别任务项目汇报的总结】
最新推荐文章于 2025-05-17 22:15:01 发布