- 博客(38)
- 资源 (1)
- 收藏
- 关注
原创 对比实验:验证小目标特征增强策略的有效性
验证「添加 CBAM 注意力机制」对 YOLOv5s 检测小目标的提升效果(核心变量:是否加入 CBAM,其余全固定)漏检率 = 未被检测到的小目标数量 / 验证集中小目标总真实数量。
2025-10-30 08:17:51
813
原创 自动化模型学习器——autoGluon
AutoGluon是亚马逊开源的自动化机器学习工具,通过极简代码实现高精度模型构建。它能自动完成数据预处理、模型选择、超参数调优和模型集成,支持表格数据、图像、文本及多模态任务。核心优势包括:3-5行代码完成建模、工业级精度、全流程自动化处理、支持GPU加速训练。特别适合非专业开发者快速验证业务假设或缺乏算法团队的场景,大幅降低机器学习应用门槛,已在数据竞赛和实际业务中展现高效能。
2025-10-25 10:23:05
456
原创 计算机视觉领域应用了模块缝合思想的经典模型
计算机视觉中的“模块缝合”技术是实现模型性能突破的关键方法。FPN通过多尺度特征融合解决目标检测问题,U-Net利用跳跃连接平衡语义分割的细节与语义。SENet和CBAM引入注意力机制动态筛选特征,而多模态模型如FuseNet通过跨模态特征互补提升性能。轻量化网络如MobileNetv2则采用高效缝合降低计算量。这些方法的核心在于通过合理连接实现不同特征的互补,从静态拼接、动态加权到跨模态融合,为模型设计提供了重要参考。
2025-10-24 15:21:25
553
原创 缝合模块-找模块、改进创新点
本文介绍了计算机视觉领域模块缝合的通用方法。首先建议从顶会论文和代码库中获取模型模块,然后详细阐述了三种缝合方式:串行连接、并行相加/拼接和注意力门控融合。接着讲解了维度对齐的关键操作(unsqueeze、reshape等)和完整的缝合流程(多路径特征提取、特征预处理、融合模块实现)。最后提供了一个包含三种融合方式的PyTorch实现示例,并特别说明注意力机制参考了SENet的思想。该方法为组合不同模型模块提供了系统化的解决方案。
2025-10-24 12:23:22
941
原创 模型缝合的思想和步骤
《模型缝合技术:模块化拆解与重组方法》摘要(150字) 模型缝合是通过拆解成熟模型的功能模块并按任务需求重组,实现低成本高性能的技术方案。其核心是遵循功能互补、结构兼容和效率优先三原则,精准选择并连接模块(如ResNet+FPN+YOLOHead)。具体实施需四步:明确任务需求拆解功能模块→验证模块兼容性→处理维度/尺度衔接→多任务协同训练。该技术广泛应用于目标检测、图像分割等场景,但需避免过度缝合,确保模块功能对齐。如同拼乐高,模型缝合通过科学组合预训练模块,快速构建适配特定任务的AI模型。
2025-10-12 22:26:01
873
原创 BaseLine与BackBone
摘要: BaseLine是完成任务的基础模型,要求简单、可运行且性能可衡量,为后续优化提供基准。示例中构建了一个简易卷积网络(包含特征提取Backbone和分类Head),用于MNIST分类。Backbone是核心特征提取器(如ResNet、VGG),不同任务可复用预训练模型并调整Head。例如,将ResNet50的Head替换为10分类层,冻结部分参数以适配新任务。BaseLine提供基准性能,Backbone则支撑复杂特征提取,二者共同构成完整解决方案。
2025-10-12 22:07:57
158
原创 什么是注意力,什么是特征融合
举个小目标检测的例子:先通过特征融合把 “浅层 80×80 细节特征” 和 “深层 20×80 语义特征(上采样后)” 拼成一个更完整的特征;再用注意力给这个融合特征中的 “小目标像素” 乘更高权重,让模型聚焦于真正需要检测的区域 —— 两者配合实现 “信息全 + 重点清” 的效果。
2025-10-08 09:21:29
948
原创 深度学习模型构建的本质——“核心四要素+任务适配逻辑”
本文介绍了深度学习模型的核心四要素:卷积(提取局部特征)、池化(压缩维度/保留关键信息)、全连接(整合全局特征)和激活函数(修正输出)。文章通过图像分类任务示例,展示了各组件如何协同工作:卷积层提取特征,池化层降维,全连接层整合全局特征并输出匹配类别数的维度,最后用softmax激活函数将输出转化为概率分布。同时使用交叉熵损失函数引导模型学习,通过梯度下降优化参数。整个流程演示了模型如何从输入图像到最终分类预测的完整过程,体现了深度学习任务适配的核心逻辑。
2025-10-06 17:55:53
142
原创 YOLO系统——yolov1工作原理
YOLOv1是首个单阶段目标检测模型,通过将输入图像划分为7×7网格直接预测边界框和类别。其网络结构包含24个卷积层和2个全连接层,输出7×7×30张量。训练采用多任务损失函数,包含坐标、置信度和类别损失。预测时需进行置信度过滤和非极大值抑制(NMS)后处理。模型权重通过state_dict保存,支持快速推理。相比两阶段方法,YOLOv1实现了端到端检测,显著提升了检测速度。
2025-09-22 15:10:03
854
原创 PIL与cv2 1+1>2
摘要:该代码使用Python实现基于YOLOv8的屏幕实时目标检测。通过PIL库截取屏幕图像,转换为BGR格式后输入YOLO模型检测,检测结果包含目标坐标、置信度和类别信息。检测结果通过OpenCV可视化显示,按'q'键可退出程序。支持全屏或指定区域检测,实现了屏幕内容的实时识别与标记功能。
2025-09-22 14:29:13
768
原创 YOLO系列——实时屏幕检测
摘要:该代码使用Python实现基于YOLOv8的屏幕实时目标检测。通过PIL库截取屏幕图像,转换为BGR格式后输入YOLO模型检测,检测结果包含目标坐标、置信度和类别信息。检测结果通过OpenCV可视化显示,按'q'键可退出程序。支持全屏或指定区域检测,实现了屏幕内容的实时识别与标记功能。
2025-09-21 21:26:56
567
原创 YOLO系列——使用预训练模型的预测、训练
本文介绍了使用YOLOv8模型进行目标检测的完整流程。首先需要创建conda环境并安装ultralytics库。检测功能支持多种输入源,包括单张图片、多张图片、本地视频、摄像头(默认/外接)以及网络视频流(RTSP/HTTP)。训练部分详细说明了命令行参数配置和数据集yaml文件的格式要求,包括数据集路径、类别数量及名称等信息。同时提供了Python代码实现检测和训练的示例,训练完成后会在指定目录生成best.pt和last.pt权重文件。整个过程涵盖了从环境搭建到模型训练的全套实现方案。
2025-09-21 17:51:38
199
原创 PDF 复杂表格识别解析(基于 YOLO 方案)
第一阶段:基础准备期(第 1-3 周)—— 搭好 “执行地基”1:数据集构建与环境搭建(硬件 + 软件)数据集采集与格式转换(1)公开数据集下载:A 科研表格:git clone(1.5 万份)B 通用表格:从下载 JSON 标注 + 图像(筛选 10 万份)C 噪声表单:git clone(199 份)(2) 数据格式转换(核心操作):(3) 数据集划分:(4) 硬件环境部署训练服务器:执行nvidia-smi确认 GPU正常识别,确保数据集可跨服务器访问。
2025-09-18 15:26:28
763
原创 基于AI的PDF复杂表格结构识别与智能解析(方案1)
1 总体思路本方案采用 “多模态输入 - 分层处理 - 协同输出” 的技术架构,整体分为数据预处理层、核心任务处理层、融合决策层和结果输出层四个部分,各层通过标准化数据接口实现高效协同,具体架构如下:(1)数据预处理层:统一处理 PDF 原生文件与扫描件输入,将 PDF 文本流与图像流分离,对扫描件执行超分辨率重建与倾斜校正;采用 OCR 技术(如 PaddleOCR)提取图像中的文本信息及坐标,构建 “文本 - 坐标 - 图像特征” 三位一体的基础数据结构。。
2025-09-18 14:19:14
897
原创 使用MinerU+LangGraph+Neo4j实现文本到知识图谱的转换
本文提出了一套基于MinerU、LangGraph和Neo4j的多模态文本到知识图谱自动化构建方案。该方案通过MinerU解析PDF/Word/图片等文档,提取结构化文本和图像路径;利用LangGraph编排"内容解析→实体关系提取→数据清洗→知识图谱生成"的完整流程;最终在Neo4j中存储和可视化知识图谱。方案详细介绍了MinerU的安装使用、工作原理(包含布局分析、OCR、公式识别等模型)以及Python环境配置方法,并针对常见依赖问题提供了解决方案。
2025-09-18 11:05:42
1005
原创 有方向的微小目标检测
最后,作者在 8 个不同数据集上测了 DCFL—— 不管是专门的小目标数据集(AI-TOD-R)、航拍大场景数据集(DOTA),还是普通照片数据集(COCO),DCFL 都能让小目标的检测 accuracy 涨不少,比如在 AI-TOD-R 上,把原来的算法 accuracy 提了 5 个百分点,还能兼顾大目标的检测效果,证明这个方法又好用又通用。总结下来,这份文档干了三件事:做了个专门的小目标数据集,测了现有方法的问题,提了个能解决 “偏见” 的新方法,让找又小又歪的物体变得更准了。
2025-09-18 11:04:33
536
原创 在ubuntu安装docker
本文详细介绍了在Ubuntu系统上安装Docker的完整步骤:1)更新系统包;2)安装HTTPS依赖包;3)配置阿里云镜像源;4)添加Docker仓库;5)安装Docker引擎及相关组件;6)验证安装结果。同时提供了每个步骤的具体命令行操作,适合需要快速在Ubuntu环境下部署Docker的用户参考。文中还包含了一些与Markdown编辑器使用相关的额外内容。
2025-09-18 09:29:40
754
原创 FastAPI系列——挂载静态网页
摘要:本文介绍了如何通过前端静态网页仅显示后端API返回的JSON对象中的特定值。解决方案包括:1) 创建index.html文件,使用JavaScript的fetch方法异步调用/message接口,解析返回的JSON数据并提取content字段显示;2) 使用FastAPI后端托管静态文件,提供/message接口返回结构化数据。前端通过textContent属性安全渲染纯文本内容,同时包含错误处理机制。这种方法实现了前后端分离,使前端能精准控制数据显示格式。
2025-08-21 23:54:02
443
原创 FastAPI系列1——hello world
FastAPI是一个基于Python的高性能Web框架,利用类型提示和异步支持(ASGI)构建API。它整合了Starlette和Pydantic,性能接近Node.js/Go,支持自动生成API文档。通过简单的pip安装即可使用,示例代码展示了如何创建返回"Hello World"JSON响应的基本API。使用Uvicorn启动服务后,访问指定URL即可获取响应结果。该框架设计简洁,适合快速开发高并发应用。
2025-08-21 23:30:10
304
原创 MinerU2.1.11的安装和使用
本文介绍了MinerU工具的安装与使用方法。安装时需从GitHub下载源码,创建Python3.10-3.13的conda虚拟环境,并通过pip安装。提供两种解析模式:pipeline(通用)和vlm(快速),支持PDF/图片解析为结构化数据。详细说明了Python API调用方式,包含参数设置和输出选项。另提供FastAPI和Gradio两种Web界面调用方式,国内用户需设置MINERU_MODEL_SOURCE=modelscope环境变量以解决模型下载问题。工具支持多语言解析,可输出markdown、
2025-08-21 10:33:50
835
原创 LangGraph-agent 系列之4——RAG
本文实现了一个基于RAG(检索增强生成)的智能问答系统,专门用于回答关于"2024年股市表现"的问题。系统通过加载PDF文档、构建向量数据库,并整合大语言模型实现精准问答。核心流程包括:1)文档预处理(PDF加载、文本分割和向量化存储);2)工具定义与LLM配置(检索工具绑定和状态管理);3)状态图构建(LLM决策-工具检索-结果生成的闭环流程)。系统采用Chroma向量数据库存储文档片段,支持相似性检索,并整合了DeepSeek和智普AI的API服务。最终通过交互式界面实现问答功能,用
2025-08-12 15:09:30
1026
原创 LangGraph-agent 系列之3——ReAct
摘要:谷歌团队2022年提出的ReAct框架通过"思考-行动-观察"的动态循环机制,使语言模型能像人类一样边推理边执行任务。该框架结合自然语言推理和外部工具调用(如API、数据库),实现智能决策闭环。技术实现上使用Python类型注解(Annotated、Sequence)规范工具参数,通过@tool装饰器封装外部功能,并利用消息类(BaseMessage、ToolMessage等)管理对话状态。LangGraph构建的状态图协调模型推理与工具调用,最终实现"40+12×6&q
2025-08-11 10:17:32
719
原创 LangGraph-agent 系列之2——持久化
本文介绍了如何使用LangChain和LangGraph构建一个多轮对话系统。主要内容包括:1)导入必要的库,包括类型提示工具、消息类型、聊天模型初始化工具和环境变量加载;2)定义对话状态结构State,包含HumanMessage和AIMessage的消息列表;3)实现处理函数process,调用DeepSeek模型生成回复并更新对话历史;4)通过循环实现多轮对话,保存完整的对话上下文;5)将对话内容记录到日志文件中。该系统支持上下文感知的多轮对话,并能自动维护对话状态。
2025-08-10 13:51:07
841
原创 LangGraph-agent 系列之1 ——结合大模型
本文介绍了使用PyCharm工具配置LangGraph智能体应用的步骤。首先在.env文件中配置API密钥等环境变量,然后导入必要的库和模块。关键步骤包括:1)加载环境变量并初始化DeepSeek聊天模型;2)定义State状态类存储对话消息;3)创建处理节点调用大模型生成回复;4)构建状态图并编译为可执行智能体;5)实现用户交互循环,持续接收输入并输出AI回复。该方案通过状态管理、模型初始化和流程设计,构建了一个基于大模型的简单对话系统,支持用户与AI的持续交互。
2025-08-09 22:44:06
431
原创 LangGraph 系列之 5——循环
该代码展示了使用LangGraph构建状态机的工作流:定义State类型存储数据流,包含姓名、随机数列表和计数器。通过greeting_node初始化问候语并重置状态,random_node生成随机数并计数,decide_loop函数根据计数器值决定是否继续循环。状态图从START开始,经初始化节点后进入循环生成5个随机数后结束。代码演示了如何管理状态流转、节点协作和条件循环控制,最终输出问候语和随机数列表,并支持可视化流程展示。
2025-08-09 21:31:01
390
原创 LangGraph 系列之 4—— 分支决策节点
摘要:这段代码展示了如何使用LangGraph构建一个条件分支的状态图,实现简单的加减法计算。通过定义状态结构(State)和节点函数(adder/subtractor),构建流程图包含路由节点(router)实现条件分支,根据操作符(op)动态选择加法或减法路径。代码演示了如何添加节点、设置条件分支边和普通边,最终编译并执行流程图,传入初始状态{n1:10,n2:20,op:"+"}得到正确结果30。核心在于router节点的透传处理和conditional_edges的条件路由机制。
2025-08-09 20:50:54
323
原创 LangGraph 系列之 3—— 多个节点
本文展示了一个基于LangGraph的简单线性工作流实现。代码定义了包含姓名、年龄和结果的状态结构,通过两个节点依次处理:node1生成当前年龄描述,node2计算1年后年龄并更新描述。流程采用严格的类型检查,确保数据完整性。示例中输入"Jim"和年龄13,输出"Jim,1年后,你的年龄是:14"。该设计体现了状态传递和节点分离的思想,为扩展复杂流程奠定基础,并支持可视化流程图展示。完整演示了LangGraph从状态定义、节点逻辑到图流程设计和执行的完整工作链路。
2025-08-09 16:52:59
372
原创 LangGraph 系列之2 —— 简单运算
该代码实现了一个基于LangGraph的状态图计算器,能够根据操作符对整数列表进行求和或求积运算。通过TypedDict定义状态结构,包含整数列表、用户名、操作符和结果字段。核心处理函数process_values根据操作符调用sum或multiply函数进行计算,并更新结果。构建的图结构简单线性(START→处理节点→END),所有计算在一个节点内完成。代码还支持可视化展示流程图,并通过示例演示了计算[1,2,3,4]乘积的功能,输出"HI,Jim,计算结果=24"。整个实现展示了La
2025-08-09 16:20:16
160
原创 LangGraph 系列之1 —— hello world
摘要: LangGraph是LangChain团队2023年推出的开源框架,用于简化复杂智能体(Agent)的流程控制。它基于有向图模型,将工作流抽象为节点(处理逻辑)和边(流程流向),支持状态管理、条件分支和人机协作,解决了多轮对话、动态流程等复杂场景的开发难题。通过HelloWorld示例可见,开发者只需定义状态结构、节点函数及流程边,即可实现如消息拼接等任务,无需手动处理底层状态同步。LangGraph凭借其模块化设计,已成为构建工业级智能体的核心工具。
2025-08-09 15:06:00
1154
原创 PyTorch 中简单表达式与神经网络模型的训练流程
PyTorch 的自动微分机制使得简单表达式和复杂神经网络的训练流程得以统一。无论模型结构如何,核心都是通过。
2025-07-31 10:05:42
396
原创 数据集是否需要transforms
transforms在深度学习工作流中扮演数据适配器的角色,其使用与否取决于数据的原始状态和模型的输入要求。在 99% 的实际场景中,尤其是涉及标准数据集或需要数据增强时,transforms都是必不可少的组件。合理利用transforms,既能简化数据处理流程,又能提升模型的稳定性和泛化能力。
2025-07-30 15:35:54
666
原创 torchvison的模块解读
是 PyTorch 的核心视觉库,提供了图像和视频处理所需的工具,包括数据集、模型、预处理和底层操作。datasetsmodelstransformsutilsopsiodatapointsextensions:提供预实现的数据集类,简化数据加载。:提供预训练的深度学习模型,支持微调。:图像预处理和增强,支持链式操作。ResizeCenterCropRandomCropToTensorNormalize:辅助工具,简化可视化和调试。make_grid:底层计算机视觉操作,优化性能。
2025-07-30 14:56:54
853
原创 transpose在PyTorch与Numpy中的功能不一样
torch.transpose()和numpy.transpose()的功能不一样,需要谨慎使用。下面从两者的函数原型、使用示例等方面进行说明。
2025-07-30 14:13:10
415
原创 学习PyTorch框架前先学习tensor数据结构
但支持 GPU 加速和自动微分等深度学习特性。下面介绍 tensor的创建方式、基本操作、高级操作、与其它库的交互等方面的常用操作。是最核心的数据结构,类似于 NumPy 的。在 PyTorch 中,
2025-07-30 11:25:40
317
原创 PIL与torchvision的关系
PIL(Pillow)和torchvision是Python中处理图像的常用库。PIL提供基础图像操作功能,而torchvision是PyTorch的计算机视觉扩展库,依赖PIL进行图像处理。两者协作流程一般为:PIL读取图像,torchvision进行预处理(转换为张量并归一化),模型处理后可选PIL可视化。torchvision的transforms模块和数据集加载都默认使用PIL格式。对于性能优化,可选用OpenCV替代PIL读取图像,或使用albumentations库进行高效数据增强。
2025-07-28 21:12:01
319
原创 OpenCV 与Torchvision 的关系
torchvision与PyTorch完美结合,可以对数据进行增强等预处理,可以使用加载器每次加载一个batch_size数量的图片,然后使用torch进行模型建设和模型训练以及推理。OpenCV是一个独立的计算机视觉库,可以进行底层图像处理,如滤波、特征提取,支持传统算法,如:SIFT, ORB, Haar 级联。两者结合使用:用OpenCV读取/处理数据,用torchvision进行深度学习,再用OpenCV可视化结果。
2025-07-28 15:24:16
451
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅