枫叶随樱花-优快云博客

原创 OpenMMLab AI实战十二——MMagic代码

MMagic相关内容及其安装详见。

2025-09-19 09:01:33 164

原创 OpenMMLab AI实战十一——MMEditing

对抗生成网络是一种基于神经网络的无监督学习模型，可以建模数据的分布，并通过采样生成新数据。与有监督学习的区别图像数据在高维空间中的分布图像是高维空间中的数据点，但由于真实图像中的像素值不能取任意值，这些数据点不会充满整个高维空间，仅分布在一个相对低维的结构上。可以通过数学函数，将数据映射到低维空间上，也可以从低维空间逆映射回高维空间。映射函数G可以由神经网络构成，其中的参数可以基于数据学习出来。用神经网络表示数据分布前提：数据在高维空间形成一个概率分布pdata，通常不可解析表示。

2025-09-18 11:37:08 888

原创 OpenMMLab AI实战十——MMSegmentation代码

环境配置及安装教程详见。

2025-09-17 12:48:13 342

原创 OpenMMLab AI实战九——MMSegmentation

OpenMMlLab 图像分割算法库 MMSegmentation相关算法库详细信息详见MMSegmentation官方文档任务：将图像按照物体的类别分割成不同的区域（对每个像素进行分类）图示应用领域：无人驾驶汽车、人像分割、智能遥感、医疗影响分析图像分割包括三种：语义分割、实例分割、全景分割仅考虑像素的类别不分割同一类的不同实体分割不同的实体仅考虑前景物体背景仅考虑类别前景需要区分实体图1

2025-09-16 13:40:56 955

原创 OpenMMLab AI实战八——MMDetection代码

当前路径位于 mmdetection/tutorials, 配置将写到 mmdetection/tutorials 路径下的config_cat# 非常重要# 类别名，注意 classes 需要是一个 tuple，因此即使是单类，'classes': ('cat',), #存放类别名'palette': [ #存放调色板num_classes = 1 #类别数量# 训练 40 epoch# 训练单卡 bs= 12# 可以根据自己的电脑修改# 验证集 batch size 为 1。

2025-09-15 15:03:55 1043

原创 OpenMMLab AI实战七——MMDetection 下

衔接上一篇基础知识，这篇文章主要介绍一下检测模型，有感兴趣的可以直接点进链接阅读论文原文单阶段算法直接通过密集预测产生检测框，相比于两阶段算法，模型结构简单、速度快，易于在设备上部署相关论文: Faster R-CNN: Towards Real-Time Object Detectionwith Region Proposal Networks(2015)RPN→ Propose Region——初步筛选出图像中包含物体的位置，不预测具体类别RPN算“半个检测器”，是二阶段算法Faster RCNN的第一

2025-09-13 14:30:34 654

原创 OpenMMLab AI实战六——MMDetection 上

目标检测：给定一张图片，使用矩形框框出所有感兴趣物体并同时预测物体类别目标检测与图像分类图像分类目标检测不同通常只一个物体通常位于图像中央通常占据主要面积物体数量不固定物体位置不固定物体大小不固定相同需要算法“理解”图像的内容 -> 神经网络实现目标检测发展史。

2025-09-12 15:35:41 1107

原创 OpenMMLab AI实战五——MMPreTrain代码

此篇主要介绍一下MMPreTrain中训练的配置文件以及是如何使用的如果想要对模型进行修改或者如何构建模型，还是需要PyTorch编程以及官方文档。

2025-09-11 12:17:25 176

原创 OpenMMLab AI实战四——MMPreTrain

将图像切分乘干16x16的小块（即无重叠，固定大小），所有块排列成“词向量”，先经过线性层映射，一张[H,W,C]维度的图片变为[L,C]（图片token化）,再经过Transformer Encoder的计算产生相应的特征向量。输入数据维度3x4,将Q与K相乘得到Q对应的一系列K，然后再将K与V相乘，得到K对应的V（如何理解QKV？基本假设：模型只有理解图片内容、掌握图片的上下文信息，才能恢复出图片中被随机遮挡的内容。backbones：一般为图像的特征提取器，各类主干网络的定义。

2025-09-10 14:05:18 656

原创 OpenMMLab AI实战三——MMPose代码

2. 安装过程中，由于需要安装pycocotools工具箱进行评估验证，但是由于环境问题导致安装失败，解决方法详见。答：预测结果的shape例如为（18,17,2），则代表18个人，每个人上17个关键点，每个关键点2个坐标。1. 安装过程中可能出现pip找不到对应的安装包，可能由于对应的源没有，可以选择到。准备数据集（注，需要即放在mmpose目录里，也需要放在mmdetection里）下载配置文件（Faster R-CNN和RTMDET-Tiny）训练（先训练detection）

2025-09-09 12:20:56 193

原创 OpenMMLab AI实战二——姿态估计

2D目标检测主要有四种方法：自顶而下方法、自低向上方法、单阶段的方法、基于Transformer的方法，现在较多是基于热力图的方式进行检测，但是该方法计算量较大。：基于图像同时预测关节位置和四肢走向，利用肢体走向辅助关键点的聚类，即，如果某两个关键点由末端肢体相连，则两个关键点属于同一人。如果预测关节和真实关节之间的距离在某个阈值（可变）内，则认为检测到的关键点是正确的（2D、3D均可用）？概念：通过给定的图像预测人体关键点在三维空间中的坐标，可以在三维空间（相对关系）中还原人体的姿态。

2025-09-08 11:42:58 597

原创 OpenMMLab AI实战一——概述

由于项目需求，主要为目标检测领域的应用，所以接触过几次MMDetection，2023年有机会参加一下实战营活动，可以扩展一下自己的AI经历，例如分割、人体位姿估计等任务。OpenMMLab概述：基于 Pytorch 框架，其低层视觉库是MMCV和MMEngine，适用于学术研究和工业应用，项目开源，使用方便。：支持目标检测、实例分割、全景分割任务，主要为2D目标检测，具有训练、测试、推理等工具。MMAction2：视频动作识别算法库，动作识别、时序检测、时空检测，应用场景：手语翻译。

2025-09-07 14:51:19 420

原创书生·浦语大模型第二节：Demo实践作业

作业一

2024-04-02 22:42:08 618

原创书生·浦语大模型第二节：Demo实践

第二节笔记

2024-04-02 22:28:36 708

原创书生·浦语大模型第一节：初识大模型

InternLM2-Chat：基于Base模型，针对对话交互进行优化（聊天）综合性能达到同级开源模型的领先说平，在重点能力测评上，20B模型可以有GPT3.5的水平。大模型：一种模型应对多种任务，多种模态，例如ChatGPT、InternLM等。模型：针对特定任务，解决一个问题，例如YOLO、AlphaFold等。InternLM2：基于Base模型，可应对大部分实际应用（通用）声明：本节及后续笔记都是从纯小白的角度进行记录，从未接触过大模型，、创作、工具调用（路线规划、邮件发送等）、数学计算、数据分析。

2024-03-31 19:19:41 520

weixin_46810530的博客