- 博客(14)
- 收藏
- 关注
原创 Softmax 函数总结
Softmax函数是深度学习多分类任务的核心激活函数,通过指数归一化将实数向量转换为概率分布(总和为1)。其特性包括放大差异(突出最大值)、平移不变性(数值稳定)。广泛应用于分类输出层(配合交叉熵损失)、注意力机制和强化学习。但存在数值溢出风险、概率解释局限性,且不适用于多标签分类(需改用Sigmoid)。使用时需注意优化计算(如logits变换)和任务适配性。
2025-11-06 15:25:35
1392
原创 哈尔特征详解
本文介绍了哈尔特征提取方法的核心原理与流程。哈尔特征通过黑白区域像素差值反映图像灰度变化,分为边缘、线性、中心和对角四种类型。提取过程包括多尺度矩阵扫描、多类型特征矩阵应用等步骤,最终生成约18000维的特征向量。其优势在于计算简单快速,具有移动和一定程度的尺寸/旋转不变性,但也存在计算量随矩阵增大、缺乏光照不变性等局限。改进方法包括积分图优化计算、图像强度归一化处理,以及采用LAB颜色空间处理彩色图像等优化措施。
2025-11-05 10:48:46
608
原创 局部二值模式(LBP)探索
局部二值模式(LBP)是一种高效纹理特征描述方法,通过比较像素邻域灰度值生成二进制编码,转换为统计直方图表示图像纹理。其计算简单且对光照变化鲁棒,广泛应用于纹理分类、人脸识别等领域。虽有对噪声敏感等缺点,但通过均匀模式等改进保持实用性。与HOG相比,LBP更侧重纹理而非形状,计算效率更高。尽管深度学习兴起,LBP在实时系统和资源受限场景中仍有重要价值,其简洁优雅的设计思想在计算机视觉领域影响深远。
2025-11-04 21:14:56
763
原创 方向梯度直方图(HOG)揭秘
HOG(方向梯度直方图)是一种用于目标检测的经典特征描述符。其核心思想是通过统计图像局部区域的梯度方向分布来描述物体轮廓特征。主要流程包括:计算像素梯度、构建细胞单元直方图、组合块并进行归一化,最终生成特征向量。HOG对光照变化和微小位移具有鲁棒性,但存在对噪声敏感、忽略颜色信息等不足。虽然HOG在行人检测等领域曾取得显著成功,但随着深度学习的发展,其应用已逐渐被CNN等自动特征提取方法取代。
2025-11-03 10:35:32
793
原创 图像滤波:从降噪到锐化,看透数字图像的 “美颜与精修”
图像滤波是一种重要的数字图像处理技术,主要通过空间域卷积运算实现去噪、模糊或锐化等功能。常见的平滑滤波器包括均值滤波、中值滤波和最大最小滤波,可有效消除噪声但可能导致图像模糊;锐化滤波器则分为一阶微分(如Prewitt、Sobel算子)和二阶微分(如Laplacian算子),能突出图像边缘和细节。这些滤波技术在图像预处理、边缘检测和特征增强等方面具有广泛应用,为后续图像分析和识别提供基础支撑。
2025-10-31 22:43:00
683
原创 图像预处理:计算机视觉的基石与进阶实践
图像预处理是计算机视觉的关键环节,通过色彩处理、图像增强、几何变换和形态学操作等技术,提升图像质量、统一输入格式并降低计算复杂度。其广泛应用于安防、医疗、工业检测和自动驾驶等领域,未来将向自适应处理、端侧轻量化和深度学习融合方向发展,持续推动各行业智能化升级。
2025-10-30 23:33:22
1867
原创 计算机视觉修炼手册:从基础像素到智能应用的全栈突破
本文系统介绍了计算机视觉与数字图像处理的基础知识。主要内容包括:1)计算机视觉的核心任务(如图像分类、目标检测等)和应用场景;2)数字图像的数字化过程(采样、量化)、色彩空间(RGB、HSV)和像素关系;3)图像处理、分析与理解的区别;4)图像特征提取方法,涵盖颜色、空间、纹理和形状特征。文章全面阐述了从图像获取到特征提取的关键技术,为计算机视觉应用提供了理论基础。
2025-10-30 22:30:59
519
原创 卷积神经网络(CNN)归纳与总结
CNN是深度学习中专门处理图像数据的模型,通过局部连接、权值共享和池化操作实现高效特征提取。其核心组件包括卷积层、激活函数、池化层和全连接层,经典模型如LeNet-5、AlexNet、VGG、GoogLeNet和ResNet不断推进CNN性能提升。CNN广泛应用于计算机视觉、自然语言处理、医学影像等领域,未来发展方向包括多模态融合、轻量化设计和与Transformer等新结构的结合。
2025-10-25 22:05:13
614
原创 循环神经网络(RNN)结构归纳与总结
摘要:循环神经网络(RNN)通过隐藏状态传递时序信息处理序列数据,可分为一对一、一对多、多对一和多对多四种结构。RNN存在梯度消失和梯度爆炸问题,改进方法包括LSTM和GRU等门控机制。LSTM通过遗忘门、输入门和输出门控制信息流动,适用于长序列任务;GRU简化结构仅保留更新门和重置门,适合资源受限场景。实际应用中可根据任务需求选择模型或结合CNN、Transformer等提升性能。
2025-10-25 21:55:32
564
原创 正则化方法完整版总结
机器学习中正则化技术通过约束模型参数或训练过程来防止过拟合,提升泛化能力。主要方法包括:参数正则化(L1/L2/弹性网络)、数据增强(图像/文本/音频变形)、早停(验证集监控)、集成学习(Bagging/Boosting)、Dropout(神经元随机失活)、批归一化(标准化层输入)等。选择策略需结合数据特点,如小数据用数据增强+早停,高维数据用L1正则化,深度网络用Dropout+批归一化。正则化核心在于平衡模型复杂度和泛化性,需通过交叉验证调整参数强度。
2025-10-19 15:45:40
805
原创 神经网络激活函数
激活函数是神经网络的关键组成部分,为模型引入非线性特性,使其能够处理复杂任务。常见的激活函数包括:1)Sigmoid(输出0-1,适合二分类但易梯度消失);2)Tanh(输出-1-1,零中心化但计算复杂);3)ReLU(计算高效但可能导致神经元死亡);4)LeakyReLU(解决ReLU负输入问题);5)Softmax(多分类输出概率分布)。不同激活函数各有优劣,需根据任务特性选择。
2025-10-18 16:17:30
1759
原创 现代经典卷积架构——AlexNet
AlexNet是2012年ImageNet竞赛中的突破性卷积神经网络模型。它采用5个卷积层、3个全连接层的结构,首次大规模使用ReLU激活函数解决梯度消失问题,并创新性引入局部响应归一化(LRN)、重叠池化和Dropout正则化技术。通过双GPU并行训练和数据增强,AlexNet以15.3%的错误率远超传统方法,标志着计算机视觉进入深度学习时代。其关键技术为后续VGG、ResNet等模型奠定了基础。
2025-10-12 22:01:44
743
原创 逻辑回归的归纳与总结
摘要:本文介绍了逻辑回归的基本概念及其二分类应用,详细阐述了算法流程,包括数据准备、预处理(缺失值处理、特征编码等)、模型训练与评估(使用混淆矩阵等指标)。同时提供了MindSpore的安装指南,强调Python 3.9+和最新Anaconda版本的要求,并给出虚拟环境配置、镜像源选择及问题解决方法。整个流程涵盖从数据处理到模型部署的关键步骤。
2025-09-18 15:53:02
233
原创 回归算法的归纳与总结
回归分析是预测输入输出变量关系的统计方法,可分为一元/多元回归和线性/非线性回归。线性回归通过分析变量间的定量关系进行预测,其流程包括:数据准备(收集相关数据)、预处理(处理缺失值、异常值等)、模型训练(划分数据集并训练)、评估(使用测试集和指标如MAE、MSE评估性能)。关键步骤在于数据清洗和特征工程,确保模型输入质量。
2025-09-17 16:16:56
354
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅