- 博客(61)
- 收藏
- 关注
原创 (论文篇)Railway intruding pedestrian image sequence generation method with pose transfer techniques
本文针对高速铁路入侵检测中行人样本稀缺问题,提出基于姿态迁移的GSGAN网络生成方法。通过图卷积网络(GCN)实现精确姿态特征提取与转移,结合空间注意力机制(SA)保留关键外观特征,生成逼真的铁路入侵行人图像序列。实验表明,该方法生成的图像在结构相似性(SSIM提升0.0557)和姿态准确性(Pckh0.5提高0.0236)方面表现优异。将生成数据用于Yolov5等检测模型训练,可使检测准确率提升12.7%,有效解决了样本不足问题,同时大幅降低了人工标注成本。
2025-12-24 15:02:09
322
原创 YOLOv9导出ONNX文件,快速查看模型结构及部署
本文介绍了如何将YOLOv9模型导出为ONNX格式。操作步骤包括:修改export.py文件,添加数据集配置和权重路径,选择ONNX导出格式;通过清华源安装ONNX 1.14.1;运行export.py导出模型;最后使用Netron在线工具可视化模型结构。该流程实现了模型的标准化保存和可视化查看,便于后续部署和应用。
2025-12-24 15:01:39
25
原创 YOLOv9训练自己的数据集及验证
本文介绍了YOLOv9目标检测模型的完整使用流程,包括代码下载、环境配置、模型训练和评估四个主要步骤。首先从GitHub获取代码并准备数据集,然后配置Python 3.10虚拟环境和CUDA相关依赖。训练阶段需要设置权重路径、数据配置和训练参数,评估阶段通过evaluate.py脚本生成包含各类别指标和整体性能的CSV报告。整个过程详细说明了参数配置方法,并提供了评估指标的计算方式,帮助用户完成从模型训练到性能评估的全流程。
2025-12-24 15:00:51
54
原创 YOLO系列模型配置的yaml文件解读
YOLOv5-v8版本的yaml文件格式解析摘要:YOLO模型的yaml文件保存了关键配置信息,包括检测类别数(nc)、模型深度/宽度系数、锚框尺寸以及模型结构(backbone和head)。以backbone第二层为例,参数依次表示输入来源(-1)、模块数量(1)、模块类型(Conv)和具体参数(输出通道128、3x3卷积核、步长2)。修改网络层时需要调整后续层的输入来源。该文件定义了YOLO模型的整体架构和超参数配置。
2025-12-24 15:00:14
100
原创 (论文篇)Local and Global Information in Obstacle Detection on Railway Tracks
本文提出了一种结合局部与全局信息的铁路障碍物检测方法,通过浅层网络学习铁路分割并引入随机非铁路图像增强异常识别能力。该方法利用自编码器或GAN生成"无障碍铁路图像",通过比较原始与重建图像的语义差异检测异常,无需真实障碍物样本训练。在RailSem19增强数据集上的实验表明,该方法在AUROC(0.936)和F1分数(0.863)上显著优于基线模型,尤其擅长检测小型或颜色相近的障碍物。消融实验验证了适度限制感受野(21-29像素)能有效平衡局部与全局信息,避免过度依赖上下文导致的误判。虽
2025-12-23 08:06:12
727
原创 (论文篇)Towards Scenario-based Safety Validation for Autonomous Trains with Deep Generative Models
本研究考虑了一个基于摄像头的铁路场景分割系统的具体用例,该系统旨在支持列车自主运行。我们使用深度生成模型演示了对铁路场景进行语义编辑的能力,以使有限数量的测试数据更具代表性。我们还展示了我们的方法如何帮助分析系统符合典型的奇怪需求的程度。具体地说,我们重点评估在不同的照明和天气条件下以及在它们之间转换时的正确操作。
2025-12-23 08:05:44
712
原创 (论文篇)RailSet: A Unique Dataset for Railway Anomaly Detection
本文提出RailSet铁路异常检测数据集,包含6600张正常场景图像和1100张人工生成的异常图像。针对现有数据集缺乏驾驶员视角和异常样本的问题,研究团队通过两种方式构建数据集:1)基于23个火车视频构建RailSet-Seg语义分割数据集,采用精细标注策略;2)利用StyleMapGAN生成对抗网络创建RailSet-Ano异常数据集,包含轨下空洞和钢轨不连续两类异常。该数据集覆盖多种天气条件,为铁路异常检测提供了标准化测试基准。通过复制-粘贴算法和GAN技术,解决了真实异常样本获取困难的问题,为基于计算
2025-12-23 08:05:04
823
原创 (论文篇)Intelligent road segmentation and obstacle detection for autonomous railway vehicle
本文提出YOLOSEG策略,用于铁路场景的智能障碍物检测。该方法首先利用Unet网络分割铁路轨道区域生成掩码,再将掩码引入YOLO网络,仅检测轨道区域内的障碍物。针对真实数据获取困难的问题,通过合成方法构建包含多种场景的8000张训练数据集,并提出随机亮度增强策略。实验表明,相比传统目标检测方法,YOLOSEG能有效减少无关物体的误检,在mAP@0.5等指标上表现更优,适用于复杂铁路环境下的入侵检测任务。
2025-12-23 08:04:33
278
原创 (论文篇)ContRail: A Framework for Realistic Railway Image Synthesis Using Stable Diffusion
本文提出ContRail框架,基于改进的ControlNet模型生成逼真铁路场景图像。通过融合语义分割掩码和边缘图作为多条件输入,并采用BLIP-2自动生成文本提示,有效解决了铁路领域数据稀缺问题。实验表明,该方法在FID指标和视觉质量上均取得良好效果,生成的合成图像能显著提升语义分割模型的训练性能。该研究为自动驾驶列车等铁路感知系统的开发提供了高质量数据合成方案。
2025-12-23 08:03:54
351
原创 (论文篇)SynDRA: Synthetic Dataset for Railway Applications
SynDRA是一个基于虚幻引擎5构建的铁路应用合成数据集,包含逼真的动态场景和精确的像素级标注。该数据集通过整合OpenStreetMap地理信息和3D建模资产,生成了4种典型铁路场景,涵盖不同光照和天气条件。实验表明,在语义分割和轨道识别任务中,SynDRA能显著提升模型性能:使用15张真实样本时,BisenetX39模型的mIoU从0.28提升至0.35。该数据集支持多种视觉任务扩展,为铁路计算机视觉研究提供了高质量的合成数据资源。数据集已开源:https://syndra.retis.santanna
2025-12-22 14:23:21
880
原创 (论文篇)Data Augmentation Using Generative Models for Track Intrusion Detection
在铁路系统中检测轨道入侵者的入侵识别算法往往存在学习数据不足和数据不平衡的问题。本研究利用生成模型学习可用数据的底层分布并创建与原始数据相似的新样本来生成合成入侵数据,再使用增强的入侵数据训练深度神经网络,以准确地识别入侵。
2025-12-22 14:21:38
672
原创 (论文篇) SynRailObs: A Synthetic Dataset for Obstacle Detection in Railway Scenarios
《SynRailObs:铁路场景障碍物检测的合成数据集》提出了一种创新性的高保真合成数据集构建方法。该研究通过结合稳定扩散模型、SAM分割技术和图像和谐化处理,生成包含多样化障碍物(行人、岩石、车辆等)和复杂天气条件的铁路场景图像。实验表明,基于该数据集训练的模型在真实场景测试中表现出色,平均精度超过50%,分类准确率达90%以上,并能有效处理零样本情况。该工作解决了铁路障碍物检测领域的数据短缺问题,为复杂环境下的检测任务提供了可靠解决方案。
2025-12-22 14:19:07
394
原创 (论文篇)RailFOD23: A dataset for foreign object detection on railroad transmission lines
本文提出RailFOD23数据集,用于铁路输电线路异物检测研究。通过三种方法生成数据:(1)人工PS合成412张图像;(2)结合ChatGPT生成文本提示,使用StableDiffusion和ESRGAN生成4000张高分辨率图像;(3)基于Railsem19数据集的图像合成方法。最终数据集包含14,615张图像和40,541个标注对象,涵盖四种常见异物。实验验证了AIGC生成图像的有效性,并对主流深度学习模型进行性能评估。该数据集解决了异常数据稀缺问题,为铁路异物检测研究提供了重要资源。
2025-12-22 14:17:00
651
原创 SAM训练自己的数据集
本文介绍了SAM(Segment Anything Model)模型的训练流程。主要内容包括:1)数据集预处理,涵盖自定义数据集标注(使用labelme工具)、公开数据集准备以及数据格式转换;2)创建SAM项目,包含代码上传、服务器环境配置(Python 3.8、CUDA 11.8等)和依赖项安装;3)模型训练过程,详细说明了参数配置、损失函数选择(DiceCELoss)、训练循环实现以及结果可视化方法。文章提供了完整的技术实现路径,包括数据预处理、模型训练和结果评估等关键环节,并附有相关参考文章的详细链接
2025-12-22 13:59:14
739
原创 服务器中配置虚拟环境
从下往上搜索,选择cuda版本大于11.0,小于12.0,cudatoolkit 11.*的cudnn。找到自己想要的cudatoolkit版本后,复制上图中的链接,执行如下代码下载。将requirements.txt文件修改成下面内容后,输入如下命令行。复制上图中的链接,执行以下命令。
2025-11-17 12:54:49
406
原创 虚拟环境配置
根据该链接下载requirements中相应的torch,torchvision等等 https://download.pytorch.org/whl/torch_stable.html, 例如文件中torch-1.10.2+cu113-cp36-cp36m-win_amd64.whl。下载cuda的官网 https://developer.nvidia.com/cuda-toolkit-archive。根据pytorch版本确定cuda版本,参考 “pytorch对应cuda.png”
2025-10-30 17:55:18
272
原创 图像生成、图像分割及目标检测的常用评价指标
FID 利用Inception v3 网络对图像提取高层特征(通常是 pool3 层(2048维)),然后将这些特征视为服从高维高斯分布。对于生成图像集和真实图像集,我们分别得到它们在特征空间中的分布:(生成图像特征的均值和协方差);(真实图像特征的均值和协方差)。然后用 Fréchet 距离(又称 2-Wasserstein 距离) 计算两者的分布差异:第一项是均值的欧式距离,第二项是协方差的距离(矩阵范数)。
2025-06-10 01:39:12
1297
原创 论文详读:InstructEdit:使用用户说明改进基于扩散的图像编辑的自动掩码(InstructEdit: Improving Automatic Masks forDiffusion-base)
本文提出InstructEdit框架,通过语言指令实现细粒度图像编辑。该框架整合三个核心组件:1)语言处理器(采用ChatGPT/BLIP2解析指令并生成分割提示与编辑字幕);2)分割器(基于GroundedSegmentAnything生成高质量掩码);3)图像编辑器(结合StableDiffusion与DiffEdit技术进行掩码引导生成)。实验表明,该框架在复杂场景下的细粒度编辑效果优于DiffEdit等现有方法,并能处理多种形式的用户指令。
2025-06-06 00:38:46
757
原创 常见的图像生成模型
(1)Frechet Inception Distance(FID)[10]通过测量真实的图像和ImageNet预训练的Inception-V3 [48]网络上生成的图像之间的特征分布差异来显示生成图像的整体视觉质量。(2)Inception Score(IS)[38]使用在ImageNet网络上预训练的Inception-V3 [48]来计算生成图像输出的统计分数。(3)多样性得分(DS)通过比较DNN特征空间中的LPIPS [55]度量来计算相同布局的两个生成图像之间的多样性。(4)分类评分(CA
2025-05-24 22:47:28
1319
原创 论文详读:基于跨视图查询一致性的铁路轨道异物检测方法
铁路轨道异物检测在保障铁路正常运营方面具有重要意义。然而,目前该领域主要面临两大挑战:数据稀缺和标注成本高。由于轨道上的某些异常较为罕见,现有公开数据集难以覆盖多样化的异常情况;而人工标注数据不仅耗时费力,且难以满足大规模应用需求。为了应对这些挑战,本文提出了一种新颖的铁路轨道异物图像生成与检测框架,结合异物图像生成和半监督学习策略以提升检测性能。具体而言,针对数据稀缺问题,本文提出了一种基于扩散模型的多区域引导异物生成方法。
2025-05-22 15:22:35
1234
原创 论文详读:基于扩散模型的图像编辑综述(Diffusion Model-Based Image Editing: A Survey)(涉及图像生成、图像合成、图像恢复、图像编辑等多个领域)
去噪扩散模型已经成为各种图像生成和编辑任务的强大工具,以无条件或输入条件的方式促进视觉内容的合成。它们背后的核心思想是学习逆转逐渐向图像添加噪声的过程,使它们能够从复杂的分布中生成高质量的样本。在这项调查中,我们提供了一个详尽的概述现有的方法,使用扩散模型进行图像编辑,涵盖理论和实践方面的领域。我们从多个角度对这些作品进行了深入的分析和分类,包括学习策略用户输入条件以及可以完成的特定编辑任务。此外,我们特别关注图像修复和外绘,并探讨早期的传统上下文驱动和当前的多模态条件方法。
2025-05-18 17:11:33
1929
原创 ”SAM模型4“构造SAM模型自己的 Dataset 并继承 PyTorch 的 Dataset 类
即两个样本,每个样本有 3 个通道,高度和宽度为 256。,每个样本有 5 个点,每个点有 2 个坐标。文件中的图像数据、标签掩码和图像嵌入。,每个样本有 4 个边界框坐标。,每个样本有 5 个点的标签。这段代码定义了一个自定义的。,用于加载和处理存储在。
2025-05-07 01:02:11
289
原创 jupyter notebook运行简单程序
jupyterlab扩展了 Jupyter Notebook 的功能,增加了更多的工具和灵活性,支持多个文档和视图并排工作,包括 Jupyter Notebooks、终端、文本编辑器、图形控制台和富媒体输出。支持集成文件浏览器,支持文件的查看和操作。(2) 在jupyter notebook中可新建一个文件夹,重命名part1,之后我们的教学的每一章将存放一个文件夹中。该文件可直接编写及运行代码。是一个开源的集成开发环境,旨在为用户提供一个功能齐全、界面友好的编程环境,支持代码编辑、调试、项目管理等功能。
2025-05-05 23:51:51
975
原创 Linux系统安装PaddleDetection
1. 查看设备先输入nvidia-smi,查看设备支持的最大cuda版本,选择官网中支持的cuda版本2. 下载CUDA并安装使用快捷键Ctrl+Alt+t打开终端,先输入nvcc -V,查看cuda版本在终端输入cat /proc/version查看设备ubuntu版本号根据设备版本选择合适的cuda版本选择后根据下方Installation Instructions的内容在终端输入这两行内容第一条语句进行下载第二条语句进行安装,选择Continue输入accept,按回车键。
2025-05-05 23:45:43
1472
原创 ”SAM数据3“将分割数据集中的“图像 + GT + 嵌入” 数据打包
SAM 的 image encoder(比如 ViT-H)对每张图做 embedding 的计算成本很高。将分割数据集中的“图像 + GT + 嵌入” 数据提前打包保存好,可以让之后训练、测试、推理阶段更快。
2025-04-24 00:39:20
498
原创 论文详读:一种用于变电站缺陷图像生成的新型对抗性深度学习方法(A Novel Adversarial Deep Learning Method for SubstationDefect Image)
2024-7-12变电站设备缺陷的存在是影响电力安全输送的主要因素。随着智能巡检机器人的发展,多利用主流的目标检测模型对变电设备表面缺陷进行诊断,但缺陷图像数据的缺乏是影响基于监督深度学习的缺陷检测模型准确性的主要因素之一。针对变电站设备锈蚀、表面漏油等复杂背景下缺陷图像训练数据不足,导致检测模型性能不佳的问题,本文提出一种基于对抗式深度学习的变电站缺陷图像生成模型--异常缺陷检测生成对抗网络(ADD-GAN)。与现有的生成式对抗网络不同,该模型在。
2025-04-17 16:42:56
1052
原创 ”SAM数据1“大模型SAM辅助labelme分割数据集
在左上角文件中在此处点击“更改输出路径”,选择前边在数据集文件夹中创建的labels文件夹。点击“自动保存”后,点击下一幅,即可自动保存标注数据。在数据集文件夹中,新建images文件夹(存放需要被分割的原始图像)和labels文件夹(存放分割后的标签)。打开anaconda的envs目录下的此路径,打开-init-.py文件进行编辑。双击完成标注,在弹出的窗口输入标签类别,确认后在右侧栏出现标签名称。左键选择你想要的区域,然后shift+左键选择你不要的区域。在图片位置右击,选择创建AI多边形。
2025-04-14 23:44:28
1179
7
原创 如何在服务器中重新配置虚拟环境的cuda版本
从下往上搜索,选择cuda版本大于11.0,小于12.0,cudatoolkit 11.*的cudnn。装好pytorch后,命令行输入python,进入python的命令行,导入torch包。找到自己想要的cudatoolkit版本后,复制上图中的链接,执行如下代码下载。执行上述命令后,会显示出源内所有的cuda版本,以及下载地址,如图所示。检查是否安装成功,执行下面命令后,显示安装的版本就是安装成功了。检查是否安装成功,执行下面命令后,显示安装的版本就是安装成功了。复制上图中的链接,执行以下命令。
2025-03-31 12:33:11
931
原创 论文详读:SAM引导的面向异常检测的双流轻量化模型(A SAM-guided Two-stream Lightweight Model for AnomalyDetection)
2025-02-28在工业异常检测中,模型高效性和移动友好性成为实际应用中的首要问题。本文针对这两个关键因素,提出了基于Segment Anything(SAM)的无监督异常检测双流轻量级模型 STLM,采用的两种轻量级图像编码器由SAM的知识指导,充分利用了SAM的鲁棒泛化能力。一个流被训练为在正常和异常区域中产生区分性和一般性的特征表示,而另一个流重建相同的无异常图像,从而有效地增强了两个流表示在面对异常区域时的区分性。此外,我们。
2025-03-28 16:18:02
1376
原创 RAP-SAM(RAP-SAM : Towards Real-Time All-Purpose Segment Anything)
(1)以往的分割模型使用笨重的编码器和级联解码器,导致,且。(2)以前的实时分割,但实际情况是需要多种输出。仍没有研究调查实时的通用分割任务(或实时全方位分割),也就是包括图像分割、视频实例/视频分割以及类似 SAM 的交互式分割。
2025-03-20 13:33:27
665
原创 SAM提示总结
应用场景:(1)分割多个相似物体中的一个对象(2)同时分割同一图像中的多个相同物体(3)沿视频跟踪不同的物体SAM模型:(1)SAM的能力。即对于每一幅图像,都需要在复杂的场景中准确地找到目标物体,然后使用适当的提示激活 SAM 进行分割。
2025-03-20 13:26:47
1303
原创 ASLSEG: ADAPTING SAM IN THE LOOP FOR SEMI-SUPERVISED LIVER TUMOR SEGMENTATION
应用场景:医学成像任务,如心脏磁共振成像(cMRI)的短轴视图分割,可能需要模型对特定结构有更精细的识别和分割能力。SAM模型:尽管SAM在一般图像分割任务上表现出色,但在医学成像领域,特别是需要精细结构分割或精确边界划分的任务上,SAM可能面临挑战。
2025-03-20 13:24:02
476
原创 SAM多目标跟踪与分割SAM-PT论文解读Segment Anything Meets Point Tracking
现有的关于视频注释的方法大多数侧重于掩码注释和传播,这大大降低了标注的效率和模型的泛化性。本文提出的SAM-PT是:通过结合SAM的图像分割功能和PT的点跟踪功能,引入了一种以点为中心的交互式视频分割方法。它使用稀疏点传播实现了对用户查询点的有效跟踪。与传统的以对象为中心的掩码传播策略相比,本文使用点传播以利用与对象语义无关的局部结构信息。实验结果表明,基于点的分割跟踪器能够实现更好的零样本性能和高效的交互,SAM-PT在视频分割任务中取得了很强的性能,包括半监督、开放世界和全交互式视频分割。
2025-03-20 13:20:40
1093
原创 SAM功能改进Per-SAM论文解读PERSONALIZE SEGMENT ANYTHING MODEL WITHONE SHOT
发表时间:2023年10月4日论文:代码:在大数据预训练的推动下,任意分割模型(SAM)作为一个强大的提示框架已经被证明是一场切分领域的革命。尽管SAM具有通用性,但在没有人工提示的情况下为特定的视觉概念定制SAM还没有得到充分的探索,例如,在众多图像中自动分割您的宠物狗。在本文中,我们为SAM引入了一种无需培训的个性化方法,称为PerSAM。对于单镜头数据,即带有参考掩码的单幅图像,我们首先在新图像中获得目标概念的正负位置。
2025-03-20 13:19:06
801
原创 SAM掩码质量总结
应用场景:特别是对于自动注释和图像/视频编辑任务,其中高度准确的图像掩码至关重要。SAM模型:(1)预测不正确,mask破损(2)粗糙的掩码边界(3)SA-1B数据集会带来巨大的成本影响,并且无法实现我们工作中所追求的高质量掩码。
2025-03-20 13:18:34
1295
原创 SAM轻量化应用Auto-SAM、Group-Mix SAM、RAP-SAM、STLM
知识蒸馏(Knowledge Distillation)是一种模型压缩技术,用小型的学生模型(student model)学习模仿大型的教师模型(teacher model)的行为,提高小型模型的性能,使其在推理时的性能更接近于大型模型。在实际应用中,尤其是在资源受限的环境下,模型需要有较高的效率,能够实时处理数据并快速给出检测结果,即需要较少的计算资源和时间,模型的复杂性和内存占用也是一个重要考虑因素。,该模块将从先前的图像编码器中提取的特征图作为输入,并自动学习以下掩码编码器所需的提示。
2024-05-09 12:33:27
2195
1
原创 SAM功能改进VRP-SAM论文解读VRP-SAM: SAM with Visual Reference Prompt
发表时间:2024年3月30日论文:代码:在本文中,我们提出了VRP-SAM,通过集成视觉参考提示(VRP)编码器实现了SAM框架的创新扩展。这个附加功能使SAM能够利用视觉参考提示进行引导分割。核心方法包括通过VRP编码器编码带注释的参考图像,然后与目标图像交互,在SAM框架内生成有意义的分割提示,对目标图像中的特定对象进行分割。VRP编码器可以支持各种参考图像的注释格式,包括点、框、涂鸦和掩码。它克服了SAM现有提示格式的限制,特别是在复杂场景和大型数据集中。
2024-04-10 10:06:02
2608
2
原创 SAM掩码质量改进PA-SAM论文解读PA-SAM: Prompt Adapter SAM for High-QualityImage Segmentation
1. 简介发表时间:2024年1月23日论文:代码:SAM在许多场景下,特别是在现实世界中,在掩码预测质量方面面临着挑战。本文提出了一种新的提示驱动的SAM适配器,开发了一个高质量分割网络PA-SAM,旨在提高原始SAM的分割掩码质量。PA-SAM冻结SAM组件,只需要对提示适配器进行微调,从而在生成高质量分割图的同时保留了原始SAM强大的对象定位能力。提示适配器进行了自适应细节增强和硬点挖掘,它通过从图像中挖掘详细信息来优化稀疏提示和密集提示。
2024-04-01 21:24:28
2738
1
A SAM-guided Two-stream Lightweight Model for AnomalyDetection论文中的词汇、短语及句式
2025-03-28
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅