- 博客(371)
- 收藏
- 关注
原创 ACM 模式和核心代码模式
模式输入输出由谁处理代码结构通常用途ACM 模式你自己处理完整的 main 函数比赛/算法题核心代码模式平台处理只写函数或类逻辑部分面试/刷题平台(如 LeetCode)项目ACM 模式核心代码模式是否写 main✅ 是❌ 否输入输出自己用cin/cout平台自动处理写哪部分写全部代码只写核心函数(class/function)用途算法比赛、蓝桥杯等LeetCode、牛客网面试题、PAT 题目等。
2025-04-08 08:31:00
120
原创 YOLOV8 训练姿态检测模型
如果没有启用恢复训练(resume=False):使用 self.trainer.get_model() 手动初始化模型。加载细节,这时我们就获得了 mode 模型的权重值,以及模型文件件保存的其他内容 ckpt。调用父类方法继续初始化,在父类方法中加载创建模型或者是加载模型。准备训练前的事情,比如说优化器,dataloader 等等。构造PoseModel 这个类,继续调用父类的构造方法。创建一个新的模型,然后将权重加载进去。父类里面前向传播一次计算stride。
2025-04-01 19:17:58
248
原创 YOLO历代发展 图像增强方式 架构
tbox返回的是真实标记 相对于用来预测的grid cell 的偏移量 , 以及返回的是真实标记的长宽。80+64 = 80+16*4 4是指到每条边的距离。indices说明这个标记的类别是哪一个类别的。anch 是对应预测用的边缘框的类型。tcls 返回的是匹配后的类别。
2025-03-27 14:48:01
151
原创 Ultralytics YOLO格式
在COCO(Common Objects in Context)数据集中,:标注中的关节点在图像中是清晰可见的,通常被认为是可靠的标注。:关节点被部分或完全遮挡,标注可能不太可靠或难以精确定位。:关节点在图像中完全不可见,标注是无效的或完全缺失。
2025-03-23 10:46:40
33
原创 Vision Transformer(ViT)
这是两个图像分类/识别数据集的名称:DTD:Describable Textures Dataset(可描述纹理数据集)GTSRB:German Traffic Sign Recognition Benchmark(德国交通标志识别)表明这些属性在多个任务(如纹理分类、交通标志识别)上都得到了验证。Vision Transformer 不仅在常规任务中表现优异,还具有很强的“抗干扰”、“强泛化”、“自动分割”、“少监督学习”等能力,是目前计算机视觉的“通用架构”代表之一。
2025-03-11 19:00:29
391
原创 Self-Attention 中的 Q / K / V
概念类比Q我提问:“谁对我重要?K别人展示自己的“吸引力/重要性”V真正说出的内容Attention用 Q 和 K 的比对算“权重”,再用这些权重去融合所有 V训练时:解码器使用真实的目标序列(左移后的目标序列)作为输入,不依赖模型的预测。<sos>, …预测时:解码器依赖之前生成的词作为输入,不使用真实的目标序列。<sos>, …这种区别是由于训练时我们希望通过真实数据来引导模型学习,而预测时我们只能依赖模型的输出逐步生成目标句子。
2025-03-10 16:45:52
358
原创 Rethinking Keypoint Representations: Modeling Keypoints and Poses as Objects for Multi-Person Huma
姿态估计
2025-03-09 18:56:58
29
原创 YOLO-Pose: Enhancing YOLO for Multi Person Pose Estimation Using Object Keypoint Similarity Loss
YOLO-Pose: Enhancing YOLO for Multi Person Pose Estimation Using Object Keypoint Similarity Loss
2025-03-09 17:01:24
378
原创 热图回归(Heatmap Regression)
热图回归是一种有效的关键点估计方法,尽管它在某些方面存在缺陷,例如量化误差和计算开销,但其直观的表示方式和处理能力使其在许多计算机视觉任务中得到了广泛应用。
2025-03-09 15:41:13
155
原创 人体姿态估计(Human Pose Estimation, HPE)的方法主要分
是比较合适的选择,因为它速度快、占用资源少。如果需要更高精度,可以考虑使用基于热图的方法,如 OpenPose 或 HRNet,但计算开销较大。:预测每个关键点的热图(heatmap),再从热图中提取关键点坐标。:计算简单,推理速度快,适用于嵌入式设备和实时应用。:定位精度可能较低,难以处理遮挡、复杂背景等情况。:精度高,抗干扰能力强,适用于多种复杂场景。不同方法适用于不同应用场景,尤其是在。:计算量大,相比回归方法推理速度较慢。坐标,而不是生成热图。
2025-03-09 10:34:02
21
原创 姿态估计通常可以分为两种方法
https://www.bilibili.com/video/BV18P411X78x/?spm_id_from=333.337.search-card.all.click&vd_source=35b06c13f470dff84c947fa3045bafc3
2025-03-07 15:19:05
22
原创 State Farm Distracted Driver Detection
The 10 classes to predict are:c0: safe drivingc1: texting - rightc2: talking on the phone - rightc3: texting - leftc4: talking on the phone - leftc5: operating the radioc6: drinkingc7: reaching behindc8: hair and makeupc9: talking to passenger
2025-03-07 10:28:28
223
原创 CrossEntropyLoss
用于计算多分类交叉熵损失(Cross-Entropy Loss),但 不会对批次内的样本进行平均或求和,而是 逐个样本计算损失,返回一个与输入大小匹配的张量。假设有 3 个样本,每个样本的预测类别有 4 种可能(共 4 类)。2️⃣ 计算过程首先, 内部会对 logits 先做 softmax,然后取真实类别的概率,计算负对数概率:Softmax 计算(先归一化)计算出每个类别的概率:取真实类别的概率计算交叉熵计算结果:🔹 vs 返回 每个样本的损失 返回 所有样本损失的
2025-03-06 21:27:17
46
原创 PyTorch 的 Dataset 和 DataLoader
在 PyTorch 中,数据加载通常使用 和 进行高效管理和批量处理。我们来详细了解如何加载数据,包括 Dataset、DataLoader、数据预处理和自定义数据集。PyTorch 提供了 作为所有数据集的基类,所有数据集需要继承这个类,并实现: 用于批量加载数据,同时支持 多线程(num_workers) 加速数据读取。PyTorch 提供了一些 内置数据集(如 MNIST、CIFAR-10、ImageNet),可以直接使用 进行下载和加载。3. 自定义数据集(自定义 Dataset)有时
2025-03-03 16:34:17
115
原创 Pycharm 远程执行无法显示 cv2.imshow() 的原因分析及解决方案
这样,无论是 SSH 远程执行还是 Pycharm 远程调试,都能正常显示。
2025-03-03 16:00:09
180
原创 前缀和(Prefix Sum)和差分(Difference Array)
前缀和(Prefix Sum)和差分(Difference Array)是常用的优化技巧,特别适用于区间操作。你已经对一维前缀和和差分有了一定了解,下面我将通过一维和二维的比较来帮助你更好地理解。二维前缀和是前缀和的扩展,应用于二维数组,允许我们在 O(1) 的时间内计算任意子矩阵的和。和一维差分类似,我们使用一个二维差分数组。差分数组是一种优化数组区间修改操作的技巧。这样,任意子区间的和可以通过前缀和数组快速计算。用于快速计算一个数组任意子区间的和。,然后通过更新四个角来实现区间的修改。
2025-03-03 10:44:01
219
C++版本五子棋人机对战
2024-12-05
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人