自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(46)
  • 收藏
  • 关注

原创 应用篇#4:Qwen2视觉语言模型(VLM)的服务器部署

本文介绍了Qwen3-VL-2B视觉语言模型的安装与使用过程。首先通过pip安装所需依赖,然后使用ModelScope下载模型。在实践过程中遇到模型生成方法缺失、依赖缺失和网络连接超时等问题,通过改用Qwen2-VL-2B模型、安装缺失依赖和设置国内镜像源等方式解决。最终成功实现图片描述功能,模型能够详细描述图片内容,如人物状态和交通施工场景等。文中提供了完整的demo.py代码,包含模型加载、输入处理和结果生成等步骤,展示了该模型强大的视觉理解能力。

2025-12-05 14:12:22 388

原创 应用篇#3:MMPretrain的使用2

摘要:本文记录了深度学习模型训练过程中的问题解决与结果分析。首先解决了工作目录路径问题,将相对路径改为绝对路径后成功输出训练数据。随后尝试了多种结果读取方法:日志文件仅显示训练数据,TensorBoard因访问问题失败,JSON文件同样缺少评估指标。更换为ResNet18模型后成功获取训练损失和验证准确率等指标。文章还介绍了自定义模型改进方法,通过深度可分离卷积替换标准卷积层,并成功运行。最后说明了如何将现有模型应用于自定义数据集,包括数据准备和配置文件修改要点。整个过程涵盖了从基础配置到高级改进的完整实践

2025-12-01 15:42:09 622

原创 应用篇#2:MMPretrain的使用

本文介绍了两种在MMPretrain框架下训练模型的方法:一是使用现有模型和数据集,通过配置文件直接训练;二是自定义模型结合现有数据集。第一种方法通过修改配置文件中的模型、数据集和训练策略部分来实现定制化训练。第二种方法更复杂,需要将PyTorch模型转换为MMPretrain格式,解决维度对齐问题,并进行模块注册。文中详细记录了自定义模型过程中的关键步骤和遇到的报错问题,包括维度调整、模块注册失败等,最终通过自适应池化等方法成功运行。文章还提出了通过断点调试和可视化来理解官方代码的思路,为模型改进提供了方

2025-11-27 15:30:22 884

原创 认知篇#15:MMPretrain

MMPretrain是基于PyTorch的开源深度学习预训练工具箱,由OpenMMLab项目开发。它整合了MMClassification和MMSelfSup项目,提供丰富的预训练主干网络(如ResNet、ViT)和训练策略,支持图像分类、检索、描述、视觉问答等多种任务。MMPretrain采用模块化设计,包含models、datasets、apis等核心组件,支持从预训练到微调的完整工作流程。安装简单,通过pip命令即可完成,并提供详细的配置文件系统用于模型训练和调整。该工具箱具有高精度模型、丰富训练技巧

2025-11-26 17:18:33 758

原创 认知篇#14:360度舵机和180度舵机的区别

180度舵机和360度舵机是两种不同类型的伺服电机。180度舵机采用闭环控制,通过电位器反馈实现0-180度范围内的精确定位控制,适用于机器人关节等需要精确角度的场合。360度舵机本质上是改装后的180度舵机,采用开环控制,只能控制旋转方向和速度,无法精确定位,适用于机器人底盘等需要连续旋转的应用。两者的控制信号虽然都是PWM,但信号含义不同:180度舵机对应目标角度,360度舵机对应转速和方向。选择时需根据具体应用需求决定。

2025-10-02 16:29:18 658

原创 认知篇#13:什么是嵌入式?如何学习嵌入式?

嵌入式的核心是 “用有限资源解决特定问题”,学习路径的关键是 “先夯实基础(C + 电路 + 组成)→ 用简单硬件练手(STM32 裸机)→ 学 OS 应对复杂场景(RTOS/Linux)→ 聚焦垂直领域深耕”。只要坚持 “理论 + 实践”,从点亮第一个 LED 开始,逐步积累项目经验,就能入门并成长为嵌入式工程师。

2025-09-23 09:44:48 1554

原创 认知篇#12:基于非深度学习方法的图像特征提取

本文综述了机器学习兴起前主流的图像特征提取方法,包括SIFT、SURF、ORB等7种算法。SIFT具有尺度不变性但计算量大;SURF在保持性能的同时提升了速度;ORB结合FAST和BRIEF实现快速检测;HOG适用于静态物体检测。这些传统方法通过不同技术手段提取图像关键点和描述符,在旋转、尺度、光照变化等方面各具优势,为计算机视觉发展奠定了基础。随着技术进步,这些方法在实时性、精度等方面不断优化,为后续深度学习在图像处理中的应用提供了重要参考。

2025-09-07 22:12:39 777

原创 认知篇#11:计算机视觉研究领域的大致分类

计算机视觉是让机器"看懂"图像和视频的科学,主要研究语义感知和几何属性两大方向。文章重点阐述了语义感知的六大核心任务:图像分类、目标检测、精确识别、图像分割、视觉检索和基于图像的语言理解(问答/描述)。这些技术支撑着自动驾驶、医疗影像等应用,旨在赋予机器类人的视觉理解能力。文章系统梳理了计算机视觉的技术框架和主要研究方向。

2025-09-05 16:35:12 383

原创 应用篇#1:YOLOv8模型在Windows电脑摄像头上的部署

如何部署YOLOv8模型在摄像头上是完成模型应用必须解决的问题,通过使用“cv2”这个库,可以完成对电脑摄像头的调用(本人Windows联想),实时检测并输出图像。

2025-08-23 10:08:01 462

原创 认知篇#10:何为分布式与多智能体?二者联系?

分布式系统是由多个计算节点协同工作的系统,具有资源分散、容错性强等特点,类似于快递公司的多分部协作模式。多智能体系统(MAS)则由多个自主智能体组成,每个智能体能独立感知、决策和行动,如蚂蚁觅食的群体行为。两者的联系在于MAS本质上也是一种分布式系统,但更强调智能体的自主性和协作策略。区别在于分布式系统侧重任务协调,而MAS侧重智能行为。简言之,MAS就是在分布式系统基础上增加了智能和自治能力。

2025-07-02 00:29:12 444

原创 文献阅读篇#9:YOLOv13已出,横扫千军?可解释性如何?

YOLOv13提出了一种创新的目标检测框架,通过超图增强自适应关联机制(HyperACE)实现全局高阶语义建模,突破传统YOLO模型局部特征建模的局限。该模型采用全流程特征增强分发(FullPAD)机制,并引入轻量化DS-C3k2模块降低计算量。实验表明,YOLOv13在COCO数据集上取得SOTA性能,同时保持较低计算开销。最大的创新在于将高阶语义概念引入YOLO系列,能够建模多个元素之间的复杂组合关系,显著提升了模型在遮挡、小目标和复杂场景中的检测能力。

2025-06-28 20:13:26 930

原创 文献阅读篇#8:YOLO如何实现多模态

文章提出Mul-YOLO多模态目标检测模型,通过融合水下声信号的时间序列和时频图像数据进行频谱感知。模型采用并行双骨干网络:改进的CSPDarknet处理小波变换图像,MobileNetV1变体处理时间序列数据,并引入模态交互模块和注意力机制进行特征融合。实验表明,在低信噪比条件下Mul-YOLO的检测率达95.3%,显著优于传统单模态方法。该研究为YOLO在多模态场景的扩展提供了新思路,但实时性和数据规模仍需进一步优化。

2025-06-24 20:55:29 1567

原创 认知篇#9:何为多模态?多模态的论文是什么样的?

多模态AI技术通过整合图像、文本、音频等不同模态信息,模拟人类多感官认知能力。该技术采用特征融合和决策融合两种方式处理跨模态数据,在图像描述、情感分析、视频理解等领域具有广泛应用。尽管面临数据对齐、模态缺失和计算复杂度等挑战,多模态AI仍展现出超越单模态系统的潜力。相关研究论文通常聚焦于创新融合方法、模型架构改进和性能验证,推动着这一前沿领域的发展。

2025-06-24 10:41:48 674

原创 认知篇#8:人工智能与机械工程的交叉领域汇总

人工智能作为一门多学科交叉的新兴技术科学,正日益成为推动机械工程变革的核心动力。传统机械工程正在从以力学、结构为核心的“硬件时代”逐步迈向以智能感知、数据驱动和自动决策为特征的“智能时代”。在智能制造、机器人技术、智能控制、设计优化、故障诊断、人机交互以及嵌入式AI等方向,AI与机械深度融合,推动机械工程从设计到运维实现数字化、智能化升级。越来越多机械专业师生开始探索基于机器学习、电机健康监测、视觉检测、路径规划等智能方法的研究,表明“机械+AI”正在成为未来发展的主流方向,而纯传统机械研究也正在进行演化。

2025-06-23 20:26:41 1473

原创 认知篇#7:YOLO的多目标跟踪常用的评价指标有哪些?怎么看?

通过结合YOLOv8的Track功能和多目标跟踪的评价指标,本文深入探讨了如何在动态目标监测中提高检测效果。HOTA、MOTA、MOTP、IDF1和IDR等指标全面评估了跟踪精度、稳定性和一致性,而IDSW和FPS则进一步检验了模型的效能。这些指标的综合应用为多目标跟踪提供了重要的量化工具,有助于提升目标检测与跟踪的准确性与实时性,特别在复杂场景下,如鱼群或动物群的监测中,表现出了明显的优势。

2025-05-04 15:39:20 1358

原创 文献阅读篇#7:5月一区好文阅读,BFA-YOLO,用于建筑信息建模!(下)

解析:这个章节虽然作者设置为讨论,但实际上还是实验。做了热力图、感受野、TIDE、失败案例、语义分割总共五个实验、绘图和分析,工作量巨大。这些内容一部分很可能是审稿人的意见和要求。给我们写作论文丰富文章内容和工作量提供了思路。

2025-05-02 14:40:16 1702

原创 文献阅读篇#6:5月一区好文阅读,BFA-YOLO,用于建筑信息建模!(中)

期刊简介:《Advanced Engineering Informatics》创刊于2002年,由Elsevier Ltd出版商出版,出版周期Quarterly。该刊已被SCIE数据库收录,在中科院最新升级版分区表中,该刊分区信息为大类学科工程技术1区,2023年影响因子为8。这篇文章收录于五月份,是一篇最近发表的文章,让我们一起看看它有何过人之处,能得到一区期刊的赏识。文章标题:BFA-YOLO: A balanced multiscale object detection network for bui

2025-05-02 14:03:54 1332

原创 文献阅读篇#5:5月一区好文阅读,BFA-YOLO,用于建筑信息建模!(上)

期刊简介:《Advanced Engineering Informatics》创刊于2002年,由Elsevier Ltd出版商出版,出版周期Quarterly。该刊已被SCIE数据库收录,在中科院最新升级版分区表中,该刊分区信息为大类学科工程技术1区,2023年影响因子为8。这篇文章收录于五月份,是一篇最近发表的文章,让我们一起看看它有何过人之处,能得到一区期刊的赏识。

2025-05-01 22:33:04 2436

原创 投稿篇#4:分享两段投稿经历,SCI三区与CCF-C会连中两元!

Symmetry、ICIC投稿记录,YOLO投稿分享

2025-04-30 22:01:05 932 1

原创 投稿篇#3:会议的Important Datas是什么意思?

在学术会议中,"Important Dates" 是确保各项工作顺利进行的关键时间节点。通过了解和遵守这些日期,参会者和投稿者能够有效规划自己的时间,确保论文按时提交、注册以及其他相关活动的顺利进行。特别是论文提交、审稿通知、最终版本提交以及会议注册等环节,都可能影响会议的参与和论文的发表。因此,了解并密切关注这些日期对于参与者来说至关重要,避免错过任何重要的时间点,从而确保顺利参与会议并获取预期的成果。此外,支付方式、论文展示形式(口头报告或海报展示)等细节也需要提前确认,以免出现意外情况。

2025-04-06 10:48:11 1872

原创 论文写作篇#8:双栏的格式里怎么插入横跨两栏的图片和表格

在双栏排版场景下,为实现图片/表格跨栏展示并保证信息清晰可读,可通过WPS高效完成:选中目标图片/表格及其图名/换行符后,在菜单栏切换为“一栏”模式,系统将自动插入分节符并保持前后内容格式稳定,避免传统Word操作中复杂的分节符手动调整问题。该方法无需代码或复杂设置,既能突破双栏尺寸限制实现跨栏展示,又能确保文档修改过程中跨栏元素的格式独立性,显著提升学术图表在双栏模板中的排版效率与视觉效果。 

2025-04-05 20:34:37 4085

原创 文献阅读篇#4:YOLOE,清华大学25年发布可以看清一切的YOLO模型

清华大学团队提出的YOLOE是基于YOLO架构的突破性开放场景目标检测与分割模型,通过引入可重参数化的区域-文本对齐模块(RepRTA)、语义激活视觉提示编码器(SAVPE)及惰性区域-提示对比(LRPC)三大核心技术,实现了多模态交互与高效推理的融合。

2025-04-04 12:17:15 1457

原创 投稿篇#2:YOLO到底还能投哪些期刊/会议,期刊介绍

寻找适合投稿YOLO系列文章的期刊同样需要精心筛选和确认。通过知网搜索可以帮助确定潜在的期刊,尤其是学术期刊部分,但要注意知网更多适用于中文文献。而出版社官网,尤其是像MDPI这样的开放获取平台,是寻找期刊的好方法,平台内有许多收录YOLO相关研究的期刊,如《Sensors》、《Applied Sciences》和《Electronics》等。投稿前,需要确认期刊是否符合SCI范围,可以通过中科院分区表来验证。此外,还要注意区分开放获取(OA)期刊与非OA期刊,OA期刊一般更易投稿,但会收取一定的出版费用。

2025-03-30 16:47:45 2497

原创 投稿篇#1:YOLO到底还能投那些期刊/会议,EI会议介绍

在撰写学术论文时,选择合适的期刊和会议非常重要,尤其是在竞争日益激烈的领域中,如YOLO的相关研究。为了找到合适的EI会议,可以通过IEEE检索系统,使用关键词搜索并结合高级选项来筛选高质量的会议。除了IEEE平台,XHS、优快云等平台也能帮助搜索EI会议,但需要注意验证会议是否真正被稳定检索。投稿时,务必通过会议官网确认相关信息,如收稿范围、稿件要求和版面费等,以确保选择的是正规、高质量的会议。总之,细致的检索和确认细节是提高论文发表成功率的重要步骤。 

2025-03-29 19:20:57 1448

原创 认知篇#6:什么是激活函数?激活函数有什么用?几个简单激活函数的介绍(2)

激活函数在神经网络中发挥着至关重要的作用,不仅能够处理复杂的非线性问题,还能提升网络的表达能力。通过引入激活函数,神经网络能够避免仅呈现为线性模型,从而有效提升其性能。常见的激活函数包括Sigmoid、Tanh、ReLU、Leaky ReLU等,它们各有优缺点,并适用于不同的场景。为了进一步优化神经网络性能,新的激活函数如PReLU、RReLU、ELU、SELU和Maxout等相继被提出,这些函数解决了传统激活函数中的一些问题,如梯度消失、神经元死亡等。

2025-03-29 18:27:28 1232

原创 文献阅读篇#3:论文品读”SegNeXt: Rethinking Convolutional Attention Design for Semantic Segmentation“,MSCA模块

摘要摘要译文:我们提出了SegNeXt,一个简单的用于语义分割的卷积网络架构。最近由于在编码空间信息时的自注意效率而主导了语义分割领域。在本文中,我们证明了卷积注意是一种比自注意机制更有效的上下文信息编码方法。通过分析成功的分割模型所具有的特征,我们发现了导致分割模型性能提高的几个关键因素,这促使我们设计一种新的卷积注意力网络。

2025-03-26 16:35:15 1343

原创 论文写作篇#7:YOLO论文中的全称和缩写,什么时候全称什么时候缩写,全称和缩写谁在括号里?

全文首次出现:全称 + 缩写,缩写在括号内之后的引用:直接使用缩写长篇或复杂文档:每个主要部分或章节首次出现时再次给出全称和缩写确保在整篇论文中保持一致性,并且在适当的时候提醒读者缩写的含义。这可以通过引言中的术语表或附录中的缩写列表来实现。

2025-03-24 10:37:32 1220

原创 认知篇#5:什么是激活函数?激活函数有什么用?几个简单激活函数的简介(1)

激活函数在神经网络中扮演着至关重要的角色,它通过控制信号的大小和增强网络的表达能力,帮助神经网络处理复杂的非线性问题。激活函数的引入能够防止神经网络仅表现为线性模型,进而提升深层网络的表现力。常见的激活函数包括Sigmoid、Tanh、ReLU和Leaky ReLU,每种函数都有其独特的优缺点。

2025-03-23 19:27:56 1423

原创 模块学习篇#2:解析常用于YOLO等深度学习模型的注意力机制CBAM

CBAM(Convolutional Block Attention Module)是一种旨在提升卷积神经网络(CNN)性能的注意力机制模块。通过引入通道注意力(CAM)和空间注意力(SAM)机制,CBAM能够有效地提升模型的特征表达能力,专注于重要的通道特征和空间位置特征。其设计不仅轻量级且计算效率高,能在不增加模型复杂度的情况下显著改善性能。CBAM的即插即用特性使得它能够方便地集成到现有网络架构中,适用于多种深度学习应用。

2025-03-22 12:05:33 1540

原创 文献阅读篇#2:YOLO改进类的文章如何高效进行文献阅读(对于初学者)

文献阅读对于学术研究和专业学习至关重要,尤其对于初学者来说,掌握有效的文献阅读方法能够大大提高学习效率。首先,文献检索应从中文文献入手,确保对专业术语有基础的理解,然后逐步过渡到英文文献。在检索平台上,知网、爱思唯尔、Springer和MDPI等都是常用且高质量的资源来源。接着,文献记录是提高学习效率的关键,使用工具如Excel来详细记录文献的标题、结构、数据集等信息,不仅能帮助了解论文的内容,还能为未来的投稿提供便利。

2025-03-21 22:37:01 714

原创 认知篇#4:YOLO评价指标及其数学原理的学习

在机器学习和深度学习的任务中,模型的性能评估至关重要,而评价指标则为我们提供了多角度的衡量标准。常见的分类模型评价指标包括精确率(Precision)、召回率(Recall)、F1-Score、IoU、置信度、AP(平均精度)和mAP(平均精度均值)等。每个指标侧重于不同方面的性能表现,如精确率衡量模型正确预测的比例,召回率则关注模型对真实对象的检测能力,IoU用于衡量预测框与真实框的重叠度,置信度则帮助筛选高质量的检测结果。

2025-03-19 21:30:29 1576

原创 模块学习篇#1:浅析SPD-Conv的基本原理(应用理解向)

SPD-Conv(Spatially Separated and Deformable Convolution)是一种针对低分辨率图像和小物体检测优化的卷积操作,其创新之处在于通过避免传统卷积中的步长大于1的卷积和池化操作,从而更好地保留图像的细节信息。SPD-Conv通过对输入图像进行空间划分,将其分割成多个子图,并通过特征融合的方式将这些子图合并,最终通过一个步长为1的卷积层进行进一步处理,从而获得更为精细的特征表示。这种结构特别适用于处理低分辨率图像,能够提升模型在小物体检测等任务中的表现。

2025-03-19 14:23:24 2627

原创 文献阅读篇#1:C会/期刊的改进YOLO论文应放弃即插即用,至少要学会简单融合拼接(1)

在学习会议论文中的创新点时,我们主要探讨了深度学习模型的三类改进方法:模块改进、网络结构改进和损失函数改进。模块改进通常通过替换或优化现有模块(如卷积层、检测头等)来提升性能,适合初学者;网络结构改进则涉及调整骨干网和颈部网络以提高模型的特征提取和小目标检测能力,通常需要较强的基础;损失函数改进则分为现成应用、融合新方法和原创性改进,旨在优化模型训练过程中的目标函数。

2025-03-18 20:38:27 1011

原创 模型网络学习篇#3:Efficient-RepGFPN from DAMO-YOLO,来自阿里达摩院的YOLO

本文分析了DAMO-YOLO模型中Efficient RepGFPN的网络结构,并指出了代码与图示之间的不一致性,特别是在Fusion模块的数量和布局上。通过详细解读DAMO-YOLO的网络结构,文章逐步解释了如何从代码中还原网络架构。

2025-03-17 10:21:52 1866

原创 论文写作篇#6:在C会里,YOLO文章的摘要怎么写?Conclusion怎么写?摘要和Conclusion有哪些区别?

本文讨论了C会YOLO论文中摘要和Conclusion板块的写作方法及其区别。摘要通常包含背景、改进和总体效果,篇幅在100-250字之间,重点是概括核心信息。Conclusion则更加简洁,通常在50-200字之间,主要总结所做的改进,强调效果,但不涉及详细的数值或背景。摘要比Conclusion更加丰富,且更注重具体的结果与描述,而Conclusion则突出改进和整体效果的总结,通常不包括详细的背景和实验部分。

2025-03-15 09:22:41 1014

原创 论文写作篇#5:想发C会,YOLO的消融实验Ablation Experiment/Study怎么写?

本文讨论了消融实验在深度学习中的重要性,强调了通过逐步移除或修改模型组件来评估其对整体性能的贡献。文章指出,消融实验需要精心设计,包括选择合适的评估指标(如模型复杂度、准确度和实时性),并确保每个模块的加入能带来性能的提升。对于会议论文,建议通过逐步累加模块的方式进行实验,并简要阐述每个改进的效果,而不必详细列出每个数据变化。此外,消融实验可以与对比实验结合,以节省篇幅。 

2025-03-14 17:24:56 4970

原创 论文写作篇#4:YOLO还能发C会论文吗?C会论文的YOLO文章结构解析

本文分析了YOLO作为主流目标检测模型在不同垂直领域的改进,展示了多篇关于YOLO改进的会议论文,篇幅一般控制在9-13页,结构灵活,尽管没有统一的格式要求。文章总结了8篇论文的结构和参考文献情况,C会论文参考文献主要引用了其他会议论文、期刊论文和arXiv预印本,没有死板要求。

2025-03-13 21:36:03 2792

原创 论文写作篇#3:YOLO改进模块的结构框图画法,推荐使用draw.io

本文介绍了两种模块应用策略:一种是直接使用现有模块并根据论文需求修改其结构图,另一种是通过将多个模块结合形成新的模块,提供了具体的操作步骤和示例。博文还推荐了几款绘图工具,特别是draw.io和PPT,因其易用性和丰富的模板,适合用于绘制论文中的神经网络结构图,并强调输出高分辨率图像的重要性。

2025-03-12 16:54:28 1905

原创 模型网络学习篇#2:YOLOv1——最开始的地方(2)

其实这块就叫做YOLOv1的全连接层。其实YOLOv1的网络结构是借鉴了GoogleNet的,输入图像的尺寸为448×448,经过24个卷积层,2个全连接的层(FC),最后在reshape操作,输出的特征图大小为7×7×30。(4)综上所述,因此每个grid cell输出的数据维度为30×1,而7×7个方格输出的维度即为7×7×30。全连接层之前,特征已经被打乱了,原来好好的照片被叠成了一个砖块,模型怎么去解读这个砖块里的特征呢?:假设全连接层有m个神经元,那么全连接层的权重矩阵W是一个m×n的矩阵。

2025-03-10 22:21:52 1067

原创 论文写作篇#2:Evaluation metrics/Performance metrics评价指标怎么写?

本文主要讨论了论文中评价指标部分的写作技巧,强调如何避免查重并提高创新性。首先,通过减少写作的篇幅和巧妙换词换序,可以减少重复率。其次,采用串写的方式,即将多个评价指标有逻辑地连接在一起,增强文章的流畅性和逻辑性。另外,在涉及公式时,可以通过改变符号或详细写出数学过程来避开查重系统的检测。此外,使用完整的术语(如Precision、Recall、F1 Score等)也有助于降低重复率。总的来说,创新性地表达评价指标,并确保写作的逻辑性和清晰性,是提升论文质量和避免查重的关键。

2025-03-09 10:24:02 2004

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除