自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(119)
  • 资源 (12)
  • 收藏
  • 关注

原创 mcp初探

本文介绍了MCP服务的部署与Dify平台配置过程:1)通过Python编写MCP服务代码(mcp_test.py),实现获取系统时间功能;2)配置环境依赖并启动服务;3)在Dify平台添加MCP服务并配置IP地址;4)通过创建工作流测试服务连通性。整个流程包含服务端部署和平台集成两个主要环节,最终实现系统时间查询功能的自动化工作流调用。

2025-09-16 17:22:20 160

原创 mineru+docker+dify实现文档识别

本文介绍了通过Docker方式部署MinerU并与Dify集成的完整流程。首先下载源码和Dockerfile构建mineru-sglang镜像,然后通过docker-compose启动网页界面、API和加速服务。接着在Dify中安装MinerU插件并进行授权配置,需修改.env文件中的FILES_URL参数。最后演示了在Dify工作流中成功解析PDF文件内容的操作。该方法比源码安装更便捷,适合需要快速部署MinerU的用户。

2025-09-16 14:25:28 486

原创 mineru+dify实现文档识别

本文介绍了Mineru和Dify两款工具在文档识别与处理中的协同应用。Mineru作为高性能OCR工具,提供高精度文本识别和多语言支持;Dify则是强大的数据处理平台,支持多种数据源和可视化工作流设计。通过整合二者,可实现从文档扫描到数据处理的自动化流程,显著提升工作效率。文章详细说明了安装配置步骤、API服务启动方法以及在Dify中创建工作流的实践指南,为数字化转型中的文档处理提供了完整解决方案。

2025-09-15 14:28:21 209

原创 Dify自定义插件

Dify插件CLI工具安装与使用指南:本文介绍了如何安装和使用Dify插件CLI工具进行插件开发。主要内容包括:1) 下载并安装CLI工具;2) 常用指令说明;3) 创建插件项目的完整流程,包括项目初始化、语言选择、类型设定和权限配置;4) 项目目录结构说明;5) 环境变量配置和插件运行方法。该工具支持Python开发,可创建不同类型的插件(如Tool、Model等),并提供了详细的权限控制选项。安装测试成功后,开发者可通过简单的命令快速创建和运行插件项目。

2025-09-11 09:12:21 219

原创 探索大模型的前沿:从GPT到LLAMA,看看AI如何改变世界

摘要:大型语言模型(LLMs)如GPT和LLAMA正深刻改变人工智能领域。GPT系列以出色的文本生成能力著称,而LLAMA则凭借多语言支持和高效压缩技术脱颖而出。核心技术包括变压器架构、大规模预训练和模型压缩等。这些模型已应用于医疗、金融和教育等领域,显著提升效率。然而也面临计算成本高、数据偏见等挑战。未来发展方向包括多模态交互和通用AI,需平衡技术创新与伦理约束,确保AI发展造福人类社会。(149字)

2025-09-09 13:46:36 144

原创 Windows禁止更新

通过修改注册表可大幅延长Windows更新暂停时间。方法:1)运行regedit找到HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\WindowsUpdate\UX\Settings;2)新建32位QWORD值FlightSettingsMaxPauseDays;3)输入超大数值(如10000天约27年)并设为十进制。重启后查看更新设置即可生效,实现"准永久"暂停更新,避免激进关闭带来的系统风险。

2025-09-09 11:55:57 587

原创 Ragflow 本地化部署

Ragflow本地部署指南:1)安装Docker并启动服务;2)克隆Ragflow仓库;3)选择合适版本进行安装(推荐使用老版命令);4)解决可能出现的GPU驱动错误;5)修改端口配置后启动服务,通过8888端口访问Web界面。注意:国内镜像加速可能引发ES连接问题,GPU版本需硬件支持。

2025-08-12 09:41:15 204

原创 linux下部署 dify,并配置本地ollama大模型

本文介绍了Dify平台的安装配置及Ollama模型接入方法。首先通过GitHub获取源码,配置环境变量后使用Docker启动服务,访问80端口完成管理员账号设置。在模型配置部分,详细说明了Ollama的连接步骤,包括填写模型名称、服务地址、上下文长度等参数,并特别指出多模态模型需勾选Vision支持。针对高版本Dify可能出现模型不显示的问题,给出了解决方案文中提供了完整的配置示例和常见问题处理方法。

2025-08-11 19:26:14 838

原创 SGLang vs vLLM vs Ollama:三大LLM工具深度对比与选型指南

本文对比分析了当前三大主流大语言模型工具SGLang、vLLM和Ollama的核心特性与技术差异。SGLang擅长结构化生成控制,vLLM以生产级性能见长,Ollama则侧重本地开发便利性。通过架构解析、性能测试和功能对比,为开发者提供选型建议:本地开发优先Ollama,需要复杂逻辑控制选择SGLang,企业级部署推荐vLLM。文章还探讨了工具组合使用策略及未来发展趋势,建议根据项目阶段需求灵活搭配,以平衡开发效率与运行性能。

2025-08-11 14:38:52 488

原创 使用 Python 和 eFinance 实现 A 股历史数据大规模下载与存储

随着金融市场的快速发展,获取并存储高质量的股票数据成为许多quant研究者、数据分析师以及投资者的核心需求。本文将详细介绍如何利用Python和eFinance(东方财富)API,实现A股所有股票的历史行情数据大规模下载,并将其存储到SQLite数据库中。通过这一指南,您可以轻松构建自己的金融数据仓库,为后续分析和研究奠定坚实基础。金融数据是量化分析和算法交易的基础,而高质量的历史数据是构建可靠模型的关键。通过以上步骤,您可以轻松构建自己的A股历史数据仓库,为未来的分析与研究奠定坚实基础。

2025-07-28 08:44:37 1470

原创 大模型发展与应用详解:从技术基础到实际案例探析

大模型凭借其强大的自然语言处理能力,正以前所未有的方式重塑我们的生活和工作。在未来的道路上,如何在技术创新与伦理约束之间找到平衡,将是每一个研究者和决策者的重要课题。在当今的人工智能领域,大规模语言模型(Large Language Models,LLMs),简称大模型,正如一颗新星般闪耀。大模型指的是基于深度学习技术,通过海量数据训练,能够理解和生成自然语言的模型。一家投资公司利用大模型分析海量市场数据,每日生成的财经新闻摘要精准识别出潜在的投资机会和风险信号,帮助投资者做出更明智的决策。

2025-07-25 17:46:17 393

原创 yolov13 训练自己的数据集

标注要求:生成 `.txt` 文件,每行格式 `[class_id] [x_center] [y_center] [width] [height]`(归一化坐标)。- CUDA 内存不足:减小 `batch` 或 `imgsz`(如 640→416),启用 `half=True`(半精度)。- 数据集路径错误:检查 `.yaml` 中 `path` 是否为绝对路径,或改用相对路径(如 `../datasets`)。- 训练中断恢复:设置 `resume=True` 并指向 `last.pt`。

2025-07-21 14:59:51 406

原创 SiamFC 算法详解

SiamFC作为孪生网络跟踪器的开创性工作,通过简洁高效的设计实现了实时目标跟踪,为后续研究提供了重要基础。虽然存在一些局限性,但其核心思想仍被广泛应用,不断推动着视觉目标跟踪领域的发展。

2025-04-25 12:01:43 271

原创 SiamFC算法深度解析

SiamFC(Siamese Fully-Convolutional Networks)是一种基于孪生网络(Siamese Network)的视觉目标跟踪算法,由Bertinetto等人在2016年提出。适用于需要实时跟踪的场景,如无人机追踪、视频监控、自动驾驶等,尤其在对速度要求较高的场景中表现突出。,将响应图上的每个位置视为二分类样本(正样本为真实目标中心,负样本为背景区域)。:后续帧中可能包含目标的更大区域(通常为255×255像素)。输出为响应图(17×17),最大值对应目标在搜索区域中的位置。

2025-04-24 22:21:31 295

原创 CamShift目标追踪算法

CamShift(Continuously Adaptive Mean Shift)算法是Mean Shift算法的改进版本,主要用于视频序列中的目标跟踪。它通过动态调整搜索窗口的大小和方向,适应目标在运动过程中的尺度变化和旋转,广泛应用于计算机视觉领域,如人脸跟踪、物体追踪等。从上一帧的目标位置开始,在反向投影图上运行Mean Shift算法,寻找密度最大的区域(即新目标位置)。对后续每一帧,计算每个像素属于目标颜色分布的概率,生成反向投影图(概率密度图)。依赖颜色分布,若背景与目标颜色相似易失效。

2025-04-24 11:52:40 169

原创 Mean-Shift目标跟踪算法详解

其改进版(如CAMShift)可解决尺度问题,但复杂场景需结合其他特征或深度学习模型。结合卡尔曼滤波(Kalman Filter)预测目标位置,提升快速移动时的鲁棒性。对直方图进行归一化,得到概率分布 ququ​(uu为直方图的bin索引)。通过Mean-Shift迭代,找到相似度最高的区域(密度峰值)。联合颜色、纹理(LBP)、或深度特征(如HOG)增强判别能力。统计目标区域内颜色的概率分布(即“目标模型”)。将目标的颜色分布(如HSV空间的H通道)表示为。:手势跟踪(如基于肤色的手部追踪)。

2025-04-23 16:55:44 146

原创 KCF目标追踪算法 (Kernelized Correlation Filters) 详解

该算法基于相关滤波(Correlation Filter)理论,结合核技巧(Kernel Trick)和循环矩阵(Circulant Matrix)性质,在计算效率与跟踪精度之间取得了良好的平衡。KCF算法因其高速度(可达数百FPS)和较高的鲁棒性,成为目标跟踪领域的重要基准方法之一。KCF算法的核心思想是通过训练一个滤波器,使其在目标位置处产生最强的响应,从而在后续帧中快速定位目标。:传统的相关滤波器是线性的,KCF通过核方法(如高斯核、多项式核)将其扩展到非线性情况,提高分类能力。

2025-04-23 14:15:21 813

原创 在 Windows 下安装 Dify 教程

确保 Docker Desktop 正在运行并有足够资源(至少 4GB 内存分配给 Docker)现在您已经在 Windows 上成功安装并运行了 Dify,可以开始构建您的 AI 应用了!:所有数据会自动保存在 Docker 卷中,即使容器停止也不会丢失。下载并安装 Docker Desktop for Windows。安装完成后启动 Docker Desktop。确保在设置中启用 WSL 2 后端(推荐):如果 80 端口被占用,可以在。PostgreSQL 数据库。推荐配置至少 8GB 内存。

2025-04-22 11:23:11 2442

原创 Mask R-CNN

不仅能够完成目标检测(检测物体并给出边界框),还能为每个检测到的物体生成精确的像素级分割掩码(Mask)。:二值交叉熵(Binary Cross-Entropy),计算每个像素的预测掩码与真实掩码的误差。的掩码(K 是类别数,m 是掩码分辨率,通常 14×14 或 28×28)。Mask 分支仅预测当前类别对应的掩码,避免不同类别竞争,提升分割质量。:预测每个 RoI 的分割掩码(Mask),采用 FCN 结构。在原有的分类(Class)和回归(Box)分支基础上,新增一个。

2025-04-22 09:37:24 906

原创 图像分割的发展历程

如Non-local Networks(2018)、CBAM(2018),增强重要区域权重。扩展Faster R-CNN,增加分割分支,实现检测与分割一体化(实例分割)。:结合编码器-解码器和空洞空间金字塔池化(ASPP),提升多尺度分割能力。:扩展至点云(如PointNet++)和时序数据(如MaskTrack)。:如SAM(Meta),通过提示(prompt)实现零样本分割。(2001):将分割转化为能量最小化问题,结合颜色和边界信息。:使用SIFT、HOG等特征结合分类器(如SVM)进行分割。

2025-04-22 09:04:46 742

原创 deepsort训练自己的数据集

要训练DeepSORT在自己的数据集上,需要完成以下关键步骤。

2025-04-21 16:51:52 1350

原创 ByteTrack自定义数据集训练指南

使用NVIDIA Jetson部署,启用--fp16和--trt以下是使用ByteTrack 通过保留低置信度检测框(传统方法会过滤掉),利用运动关联(IoU匹配)和外观特征(可选)实现高精度多目标跟踪,尤其适合遮挡和拥挤场景。

2025-04-21 13:51:08 901

原创 unet训练自己的数据集

通过以上步骤,即可完成UNet在自定义数据集上的训练和部署。图像和标签:图像(如.jpg.png)和对应的分割掩膜(mask,需与图像同名且尺寸相同)。目录结构dataset/train/images/ # 训练图像masks/ # 对应的标签val/images/ # 验证图像masks/ # 对应的标签。

2025-04-21 11:03:22 1344

原创 DeepLabv3+训练自己的数据集指南

希望这个指南能帮助你成功训练自己的DeepLabv3+模型!使用不同的backbone(如Xception)提高精度。对应的标注图像(PNG格式,每个像素值代表类别ID)类别ID应从0开始连续编号(0,1,2,...)标注图像应为单通道,像素值0通常表示背景。添加数据增强(随机缩放、旋转、颜色变换):减小batch_size或图像尺寸。输入图像(如JPG/PNG格式):尝试降低学习率或使用学习率调度。:增加数据增强或使用正则化技术。使用混合精度训练加速训练过程。:在损失函数中使用类别权重。

2025-04-21 10:38:27 1128

原创 FairMOT与MCFairMOT算法对比

扩展 FairMOT 的单类别检测头,支持同时预测不同类别的中心点和边界框。可选方案:为不同类别设计独立的Re-ID子网络,减少跨类别特征混淆。需同时跟踪多类别目标(如交通监控中的车、人、非机动车)。有足够算力支持多类别计算(如服务器或高性能GPU)。:减少无关类别的干扰(如车辆轨迹不会匹配到行人)。:需平衡不同类别的样本分布(避免类别不平衡)。,可进一步优化多类别场景下的抗遮挡能力。,并调整损失函数(如类别加权交叉熵)。仅需跟踪单类别目标(如行人或车辆)。可接受稍低的帧率以换取多类别支持。

2025-04-18 16:42:32 839

原创 CenterTrack

的多目标跟踪(MOT)算法,由 Xingyi Zhou 等人提出(ECCV 2020)。显式学习目标的运动模式(而非依赖 Kalman 滤波),更适合非线性运动(如行人突然转向)。,从而实现高效的单阶段(One-Stage)跟踪,适用于实时应用(如自动驾驶、视频监控)。否则初始化为新目标。对短暂丢失的目标(如遮挡),保留历史轨迹一段时间(类似 SORT 的机制)。:预测目标从 t−1t−1 帧到 tt 帧的位移(Δx,ΔyΔx,Δy)。上一帧的检测热图 Ht−1Ht−1​(可选,用于增强时序信息)

2025-04-18 16:39:30 1001

原创 BoT-SORT算法

显著提升了复杂场景下的跟踪稳定性,是 SORT 系列算法的先进版本。:传统 Kalman 滤波假设目标运动是线性的,但在实际场景中,相机可能移动(如车载摄像头、无人机拍摄),导致目标运动非线性。:DeepSORT 使用外观特征(Re-ID)辅助匹配,但在遮挡或低分辨率情况下可能失效。,在SORT、DeepSORT和OC-SORT的基础上进一步提升了跟踪鲁棒性,尤其是在。:传统 SORT 使用固定的过程噪声和观测噪声,无法适应不同运动速度的目标。:对未匹配的检测和轨迹,使用 Re-ID 特征计算相似度。

2025-04-18 16:37:18 1083

原创 OC-SORT算法

OC-SORT(Observation-Centric SORT)是一种基于观测中心的多目标跟踪(MOT, Multi-Object Tracking)算法,是对经典SORT(Simple Online and Realtime Tracking)算法的改进。传统SORT以预测为中心(如Kalman滤波的预测优先),而OC-SORT更注重当前帧的观测结果,减少对不可靠预测的依赖。在数据关联时,不仅考虑位置和IOU(交并比),还加入运动方向的一致性判断(如速度向量夹角),减少相似外观目标的误匹配。

2025-04-18 16:19:50 932

原创 FairMOT算法详解

同时完成目标检测和重识别(Re-ID)特征提取,解决了传统两阶段方法(如DeepSORT)中检测与Re-ID任务的不公平性问题,显著提升了跟踪的准确性和效率。,即让检测(Detection)和重识别(Re-ID)两个任务在同一个网络架构中。检测器和Re-ID模型分开训练,检测框的质量直接影响Re-ID特征提取。检测误差会传递到Re-ID阶段,导致ID切换(ID Switch)增加。输出热图(Heatmap),预测目标中心点(类似CenterNet)。:引入全局Re-ID检索(如BoT-SORT)。

2025-04-18 16:14:27 1755

原创 图像篡改检测算法

然而,面对不断演进的篡改手段和生成技术(如AIGC),算法需持续进化以平衡准确性、效率和泛化能力。:端到端学习篡改特征(如MesoNet、ManTra-Net)。:识别GAN生成图像的频域伪影(如FakeCatcher)。:适应新型篡改技术(如Diffusion模型生成内容)。:篡改区域边缘可能不自然(如模糊、锐化过度)。:突出可疑区域(如EXIF信息引导的检测)。:依赖预嵌入信息(如数字水印、数字签名)。:结合噪声、纹理、光照等特征提升鲁棒性。:IoU(交并比)、篡改定位准确率。

2025-04-18 16:01:30 914

原创 AI中台系统设计方案探讨

集成JupyterLab、低代码建模工具(如H2O.ai)、预训练模型库(Hugging Face、PaddleHub)。:通过REST/gRPC接口封装AI能力(如OCR、语音识别),支持流量控制与鉴权(如Kong、Apigee)。:服务注册发现(Consul)、熔断降级(Hystrix)、监控告警(Prometheus+Grafana)。:分布式存储(如HDFS、Ceph)与对象存储(如S3、OSS),支持海量数据高速读写。加密传输(TLS)、动态脱敏(如数据掩码)、访问控制(RBAC)。

2025-04-18 15:58:34 889

原创 yolo系列发展

后续版本在保持速度的同时,通过结构创新(如FPN、RepVGG)和训练技巧(如动态标签分配)持续提升精度。:由Alexey Bochkovskiy团队提出(非官方版本,但被广泛认可)。:从两阶段(Faster R-CNN)到单阶段(YOLO),再到轻量化设计。:输入图像尺寸动态调整(320×320到608×608),增强鲁棒性。:通过3种不同尺度的特征图(FPN结构)检测不同大小目标。:引入先验框(Anchor),提高边界框预测的多样性。:引入残差结构(ResNet),提升特征提取能力。

2025-04-18 14:52:11 626

原创 目标检测综述

通过滑动窗口遍历图像,结合手工设计的特征(如HOG、SIFT、Haar)和分类器(如SVM、Adaboost)进行检测。(You Only Look Once):YOLOv1(2016)到YOLOv9(2024),兼顾速度与精度。(2020):首次将Transformer引入目标检测,端到端训练,无需手工设计组件(如NMS)。:用边界框(Bounding Box)标出物体的位置,通常用坐标(x, y, w, h)表示。:结合文本(如CLIP)、点云(LiDAR)等信息。

2025-04-18 14:43:14 157

原创 unet算法发展历程简介

UNet是一种基于深度学习的图像分割架构,自2015年提出以来经历了多次改进和扩展,逐渐成为医学图像分割和其他精细分割任务的标杆。:对称的U形网络,左侧(编码器)通过下采样提取特征,右侧(解码器)通过上采样恢复空间分辨率。UNet的成功得益于其简洁性、灵活性和可扩展性,未来仍将是图像分割领域的重要基线模型。:空间/通道注意力(如SE模块)、自注意力(Non-local模块)。:将编码器的高分辨率特征与解码器的上采样特征拼接,保留局部细节。处理3D医学图像(如CT、MRI),在解码器中使用3D反卷积。

2025-04-18 14:34:40 1269

原创 DeepLab 算法发展历程

DeepLab 系列至今仍是语义分割领域的基石,后续许多工作(如 OCRNet、Mask2Former)均受其启发。:多尺度特征融合显著提升分割精度(PASCAL VOC 2012: 79.7% mIOU)。:DeepLabv3 输出分辨率低(通常为输入尺寸的 1/8),边界模糊。:成为语义分割的标杆模型,支持轻量化(MobileNetV2)和实时应用。:传统 CNN 通过池化(Pooling)降低分辨率,导致空间信息丢失。:自动搜索更优的 DeepLab 结构(如 Auto-DeepLab)。

2025-04-18 09:11:13 805

原创 DeepLabv3+ 简介

的架构,在语义分割任务中实现了高精度和鲁棒性,至今仍是工业界和学术界的常用模型。:并行使用不同膨胀率(dilation rate)的卷积,识别不同大小的物体。编码器输出(经过 ASPP)先进行 4 倍上采样,再与主干网络的低层特征融合。模块,显著提升了物体边界的分割精度,同时保持了多尺度上下文信息提取的能力。:支持高性能(ResNet)和轻量化(MobileNet)主干网络。在不降低特征图分辨率的情况下,扩大感受野,捕捉多尺度信息。和高层语义信息,优化分割结果的细节,特别是物体边缘。

2025-04-18 09:02:35 1359

原创 ByteTrack目标追踪算法详解

ByteTrack通过。

2025-04-02 14:41:57 1861

原创 DeepSORT 目标追踪算法详解

DeepSORT 凭借其高效的实时性和稳定的追踪效果,已成为多目标追踪领域的基准算法。通过合理选择检测器、优化Re-ID模型及调整参数,可显著提升其在复杂场景下的性能。领域的经典算法,通过结合目标检测、运动预测和外观特征匹配,实现了高效、稳定的实时追踪。MOTA=1−漏检数+误检数+ID切换数总目标数MOTA=1−总目标数漏检数+误检数+ID切换数​。:将大模型(如ResNet50)蒸馏至轻量模型(如MobileNetV2)。:提取目标的深度特征(128维或256维向量),用于区分不同目标。

2025-03-19 14:48:01 1600

原创 基于深度学习的目标追踪技术全解析

模拟遮挡训练鲁棒表示(Occlusion-Aware R-CNN)。:引入区域建议网络(RPN),联合分类与回归提升定位精度。:FP16/INT8量化与层融合(NVIDIA GPU)。:逐帧检测目标,通过数据关联(匈牙利算法)跨帧链接轨迹。:融合YOLO检测与Re-ID特征,卡尔曼滤波预测轨迹。:卷积与Transformer结合,平衡局部与全局信息。:FAIR的检测与追踪平台(集成Mask R-CNN)。:CLIP模型实现未知类别追踪(如OVTrack)。:联合训练检测与Re-ID,解决特征不一致问题。

2025-03-19 14:31:40 1092

原创 目标追踪综述

目标追踪的核心任务可定义为:给定视频序列初始帧中目标的标注信息(通常为边界框或掩码),在后续每一帧中预测目标的时空状态(位置、尺度、运动轨迹等)。其核心挑战在于如何建模目标的外观与运动特征,并应对复杂环境干扰(如遮挡、光照变化、背景杂波等)。

2025-03-06 16:15:52 867

口罩数据集(mask,nomask),VOC格式,可用于目标检测

本数据集是一个专门为计算机视觉和人工智能研究设计的口罩佩戴检测数据集,适用于人脸识别、目标检测和公共卫生安全等相关领域的研究与应用开发。数据集包含大量标注图像,覆盖多种真实场景下的口罩佩戴情况。 数据集特点 包含10,000+高质量图像 多样性强 多种口罩类型:医用外科口罩、N95口罩、布口罩等 不同佩戴方式:正确佩戴、不正确佩戴、未佩戴口罩 各种光照条件和背景环境 精细标注 每张图像包含XML格式的标注文件 标注内容:人脸边界框、口罩佩戴状态、口罩类型 应用场景 口罩佩戴检测算法开发 公共卫生监控系统

2022-07-12

图像视频的车牌检测系统

通过yolo算法实现车牌定位模型,对车牌进行检测定位,并且通过LPRNET模型实现对车牌内容的OCR识别,从而达到对车辆车牌的检测识别,并且提供图像与视频的两种检测方式。最终通过pyqt实现对功能的展示。 环境搭建,见plate_pyqt.txt

2024-04-26

目标检测数据集的扩充升级版

对已经标注的目标检测小数据集进行扩充。并且支持xml与txt两种模式,参数可以配置,可以配置扩充的倍数,最多可以对原始数据集扩充8倍。并且增加小数据集对环境的适应性。是目标检测中数据集处理必不可少的一个工具代码。

2024-04-11

目标检测数据集扩充程序

针对小样本数据集的扩充处理,小样本数据集数据量有限,将影响最终的训练结果,该程序在标注后的样本的基础上,基于图像对比度、亮度等变化,对小样本的样本数量进行扩充,从而提升最终模型的精度

2023-12-04

车牌检测识别功能实现,包含界面

车牌检测识别功能实现,通过tkinter实现界面展示,并且通过mysql进行结果存储

2023-06-25

车牌识别源码以及训练结果

车牌识别算法源码以及训练权重结果

2023-06-25

基于yolov5的车牌检测

车牌检测模型训练结果

2023-06-21

猪(pig)目标检测数据集

猪(pig)目标检测数据集,yolo格式的,可以直接用来yolo系列的训练,不需要进行再次转化,直接修改相应的yaml配置文件,即可使用。

2023-03-26

python多线程定时器

通过多线程实现定时器,定时启动多线程,并且带有参数,threadtimer为定时器,main为主程序,可以按照间隔启动多线程

2023-03-11

基于深度学习的摔倒检测

用yolov5算法实现摔倒行为检测识别,模型已经训练完毕,存放路径在runs/train目录下,模型可以直接拿来使用,相应的训练参数见runs/train下面的相应图形,检测效果见runs/detect目录下。可以用来做异常行为或者智能守护中的摔倒行为检测等应用。

2023-03-06

基于yolov5的猪体(pig)识别

用yolov5算法实现猪体检测识别,模型已经训练完毕,存放路径在runs/train目录下,模型可以直接拿来使用,相应的训练参数见runs/train下面的相应图形,检测效果见runs/detect目录下。可以用来做猪(pig)的盘点等应用。

2023-03-04

牛(cow)目标检测数据集

基于coco_2014与VOC_2017数据集为基础,提取出来的牛(cow)单一种类的目标检测数据集(包含4110张各种场景下的cow图片),可用于cow的目标检测识别,以及cow的个体统计。格式符合yolo系列的(voc)格式,可以直接使用。

2023-03-04

牛(cow)数据集,VOC格式

基于VOC_2006与VOC_2012数据集的裁剪梳理,提取出来的牛(cow)单一种类的目标检测数据集(包含613张各种场景下的cow图片),可用于cow的目标检测识别,以及cow的个体统计。格式符合yolo系列的(voc)格式,可以直接使用。

2023-03-04

基于深度学习的钢筋端面识别

用yolov5算法实现钢筋断面检测识别,模型已经训练完毕,存放路径在runs/train目录下,模型可以直接拿来使用,相应的训练参数见runs/train下面的相应图形,检测效果见runs/detect目录下。可以用来做钢筋盘点等应用。

2023-03-04

yolov5牛体检测识别

用yolov5算法实现cow(牛)体检测识别,模型已经训练完毕,存放路径在runs/train目录下,模型可以直接拿来使用,检测效果见runs/detect目录下

2023-02-28

tkinter实现图像与视频中的人员统计

基于yolov5算法实现人员检测识别,并且对视频与图像中的行人进行人员统计,最后用tkinter实现前端展示,并且最终会对行人进行阈值比较,超过阈值进行报警通知(弹框提示)。

2023-02-27

前后端实现口罩检测与人脸识别

前后端分离实现对视频中的行人进行口罩检测,并对为检测到口罩的行人进行人脸识别。涉及到的技术有 python,vue,yolov5,knn,人脸识别,口罩检测。 其中后端主要是用python(flask)来实现主要算法以及数据存储等),前端用vue实现,对上传的视频和图片进行分析展示。

2023-02-19

python-flask-vue实现前后端人体与车辆属性检测

前后端分离的人体(车辆)属性检测系统。其中后端主要是用python(flask)来实现主要算法以及数据存储等),前端用vue实现,对上传的视频和图片进行分析展示

2023-02-18

基于yolov6的安全帽检测

基于yolov6的安全帽检测,模型已经训练好,可以直接使用,模型位置runs/train,检测例子位于runs/detect。并且包含数据集,可以直接进行训练,数据集位置hat_recog

2022-10-18

基于yolov5的安全帽检测

基于yolov5的安全帽检测,模型已经训练好,可以直接使用,模型位置runs/train,检测例子位于runs/detect。并且包含数据集,可以直接进行训练,数据集位置hat_recog

2022-10-18

依据主体以及格式要求,自动生成春联

依据主体以及格式要求,自动生成春联,导入dify后修改对应的大模型即可运行

2025-09-17

mineru-ocr识别

mineru+dify实现OCR识别,导入dify后,将ip和端口改为 mineru-api服务得ip

2025-09-15

PaddleOCR+HTML 图像OCR识别系统介绍

系统概述 PaddleOCR HTML图像OCR识别系统是一个基于百度飞桨(PaddlePaddle)框架的OCR识别解决方案,通过Web界面提供便捷的文本识别服务。该系统能够从上传的图像或HTML页面中提取的图片中识别文字内容。 核心组件 1. PaddleOCR引擎 基于PaddlePaddle深度学习框架 支持多语言识别(中文、英文、多语种混合等) 预训练模型支持,也可自定义训练 2. Web界面(HTML) 用户友好的上传界面 图像预览功能 识别结果展示区域 系统功能 图像OCR识别 支持JPG、PNG、BMP等常见图像格式 自动检测文本区域 高精度文字识别 HTML页面处理 解析HTML中的图像元素 保持原始页面结构的同时提取文本 高级功能 多语言混合识别 竖排文字识别 技术架构 用户界面(HTML/JS) → 后端服务(Python) → PaddleOCR引擎 → 结果处理 → 返回前端

2025-04-20

视频人体属性检测演示系统

视频人体属性检测演示系统说明 1. 系统概述 ① 目标:实时或离线检测视频中的人体属性(如性别、年龄、姿态、衣着、动作等)。 ② 应用场景:安防监控、智慧零售、人机交互、体育分析等。 ③ 核心功能: 1)人体检测。 2)多属性识别(性别、年龄、服装、携带物品等)。 3)姿态/动作分析(站立、行走、举手等)。 4)可视化结果展示与数据导出。 2. 系统架构 ① 输入模块 1)支持本地视频文件。 2)视频解码与帧提取。 ② 处理模块 1)人体检测:YOLO等算法定位人体位置。 2)属性识别:基于深度学习模型(如paddleclas)分类属性。 3)跟踪算法:ByteTrack等实现跨帧ID关联。 4)可视化界面:标注框、属性标签。 4. 使用说明 ① 依赖库:Python 3.9+, PyTorch, OpenCV。 ② 硬件建议:NVIDIA GPU(可选CPU模式但性能下降)。 ③ 详细环境搭建以及运行流程见文档 “使用说明.txt” ④ 交互界面,html实现的前端页面

2025-04-18

html实现的经典贪吃蛇游戏

游戏特点 经典重现:完美复刻经典贪吃蛇游戏玩法 精美界面:现代化UI设计,视觉效果出色 完整功能:包含完整游戏控制 如何使用 将上述代码复制到HTML文件中 在浏览器中打开该文件即可开始游戏 电脑使用方向键控制 避免撞墙或撞到自己身体 这个贪吃蛇游戏不仅功能完整,而且界面美观,代码结构清晰,是学习HTML5游戏开发的优秀示例!

2025-04-09

Flask + YOLO + HTML 实现前后端图像/视频目标检测:零基础实战教程

《从零搭建!Flask+YOLO+HTML打造高精度图像/视频目标检测系统(附完整源码)》 简介: 想用Python快速搭建一个属于自己的目标检测Web应用?本教程手把手教你如何用Flask作为后端框架,结合YOLO深度学习模型,以及HTML+JavaScript前端交互,实现一个支持图片和视频上传的实时目标检测系统! 你将学到: 如何用Flask搭建轻量级后端API YOLO模型的集成与优化技巧 前端动态展示检测结果(画框+标签+置信度) 支持图片上传、视频流实时处理 完整项目结构 & 源码分享 无论你是深度学习初学者,还是想进阶全栈开发的工程师,这个项目都能让你快速掌握AI落地的核心技能! 上传图片/视频 → YOLO实时检测 → 前端动态渲染结果

2025-04-07

【Flask+paddle深度学习】高精度音频识别系统(附完整源码、模型&详细部署教程)

项目亮点 前沿技术栈:基于Python Flask框架+Paddle深度学习模型,实现端到端的音频识别。 全流程开源:提供完整项目源码、预训练模型、可直接二次开发。 资源内容 核心代码 Flask后端API(音频上传/实时流处理) Paddle模型训练/推理代码 前端Demo(HTML+JS可视化交互界面) 增值资料 完整开发文档(API说明/参数调优技巧/性能压测报告) 适合人群 想快速落地音频AI项目的工程师 需要交Flask毕业设计的学生(提供论文框架) 学习语音处理与模型部署的开发者

2025-04-07

deepseek资料大全

deepseek相关资源 包含介绍,部署手册,以及window与mac的相关文件,模型 指导手册,使用指南等, 共计 182G

2025-02-19

大货车车牌自动生成程序

通过该程序可以实现自动生成模拟车牌,可以用来扩充数据集

2024-12-05

好用的硬盘数据恢复软件

硬盘数据恢复软件,可以用来恢复U盘丢失的数据

2024-11-27

VisionTransformer图像分类

VisionTransformer算法实现的图像分类,包含训练代码以及检测代码,数据集见 https://download.youkuaiyun.com/download/reset2021/89263991 下载后,可以修改train中的类别以及数据集地址训练其他数据集模型

2024-05-08

VGGNet图像分类算法

VGGNet算法实现的图像分类,包含训练代码以及检测代码,数据集见 https://download.youkuaiyun.com/download/reset2021/89263991 下载后,可以修改train中的类别以及数据集地址训练其他数据集模型

2024-05-08

GoogleNet图像分类算法

GoogleNet算法实现的图像分类,包含训练代码以及检测代码,数据集见 https://download.youkuaiyun.com/download/reset2021/89263991 下载后,可以修改train中的类别以及数据集地址训练其他数据集模型

2024-05-08

pyqt+yolo+lprnet车牌检测识别系统

基于pyqt+yolov5+lprnet网络实现车牌检测识别系统。用yolov5实现车牌检测定位,用lprnet网络实现车牌号码的识别,借助pyqt实现界面展示,展示最终的结果。包含图像与视频检测识别

2024-05-06

ResNet图像分类算法

ResNet算法实现的图像分类,包含训练代码以及检测代码,数据集见 https://download.youkuaiyun.com/download/reset2021/89263991 下载后,可以修改train中的类别以及数据集地址训练其他数据集模型

2024-05-06

DenseNet图像分类

DenseNet算法实现的图像分类,包含训练代码以及检测代码,数据集见 https://download.youkuaiyun.com/download/reset2021/89263991 下载后,可以修改train中的类别以及数据集地址训练其他数据集模型

2024-05-05

AlexNet图像分类

AlexNet算法实现的图像分类,包含训练代码以及检测代码,数据集见 https://download.youkuaiyun.com/download/reset2021/89263991

2024-05-04

动物食槽数据集(五分类)

动物食槽数据集,五分类,可以用来进行图像分类处理。类别已经处理完成,可以直接用于图像分类来处理。

2024-05-04

yolo人脸目标检测数据集

对widerface数据集进行转换,生成的符合yolo格式的数据集,可以直接用于人脸目标检测的训练。

2024-05-03

车辆类型以及车牌检测数据集

数据集有点大,无法直接上传。 数据集类型包含bus、microbus、minivan suv、sedan、truck、plate

2024-05-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除