- 博客(10)
- 收藏
- 关注
原创 COCO格式数据集合并脚本
博主在跑实验时突然发现一个问题,虽然COCO格式数据使用得非常广泛,但在需要使用多数据集一同训练/测试时,现有的框架(部分框架包含多数据集合并功能,但封装较为隐蔽,且对于初级用户不太友好,难以debug)通常难以下手。(此处的多数据集指的是不同类别集合下的数据集,而非COCO中的train与val合并)脚本能够将多个json合并(包含id、image_id、category_id等排序词的重排列),同时将对应图片复制到用户提供的输出图片文件夹下。因此下面贴上我自己写的一份COCO数据集合并脚本。
2025-03-06 12:11:24
305
原创 GroundingDINO各流程数据维度解析
tokenize后generate_masks_with_special_tokens_and_transfer_map,生成text_self_attention_masks、position_ids以及cate_to_token_mask_list。展开后的src_flatten为[1, 19947, 256],mask_flatten则是[1, 19947],lvl_pos_embed_flatten维度为[1, 19947, 256]在第一阶段,模型生成了大量的提议。
2024-11-10 01:22:02
1025
1
原创 DA Faster-RCNN(Q&A与核心问题讲解)
论文中通常通过统计特征(如均值、方差)或深度特征来衡量不同域之间的差异。例如,可以通过计算两个域的特征均值之间的距离来衡量域偏移的程度。
2024-07-27 16:47:29
1036
1
原创 Faster-RCNN Q&A(超全总结)
第三步:再次使用ImageNet的预训练权重初始化Faster RCNN网络的贡献conv层(Faster RCNN特有层随机初始化),然后训练Faster RCNN网络。但这次要把共享conv层的权重固定,训练过程中保持不变,只训练RPN特有层的权重。RoI Pooling层用于将提取的候选区域(不同大小的矩形框)转换成固定大小的特征图,以便后续的分类和边界框回归。锚框是在特征图的每个像素点(对应原图就是一个卷积核)上生成的,通常是多个不同尺寸和比例的框,用于覆盖可能的对象尺寸。
2024-07-27 13:33:28
963
转载 调参心法~转
B: 训练损失下降,验证损失不变甚至开始上升了,这种情况就是模型训练过拟合啦,说明模型开始自以为是了,成绩太好可能是题太简单了,所以需要增加难度了,比如增加点dropout rate。理想状态下,我们最想看到的是训练损失下降,验证损失下降,并且验证损失大于训练损失,当然理想很丰满,现实很骨感,一起来看看以下常见的情况和思路分析吧。C: 训练损失不变,验证损失下降。E:训练损失不变,验证损失上升,恭喜你,遇到疑难杂症了,我帮不了,解铃还须系铃人,自己再好好查查数据集把,一般人遇不到这种情况。
2024-05-23 09:56:00
68
1
原创 纯C语言实现CNN-46页超详细解析——(三)(精华!!反向传播部分)
考虑一个输入向量 x, 经 softmax 函数归一化处理后得到向量 s 作为预测的概率分布, 已知向量 y 为真实的概率分布, 由 cross-entropy 函数计算得出误差值 error (标量 e ), 求 e 关于 x 的梯度.以上是softmax层的梯度(计算依据有下面的图片给出)(注:类似的梯度在网络中仅出现一次)24为卷积核,进行卷积操作,得到3*3的卷积核梯度(这是对于最后一层卷积层的卷积核的梯度)参考我们的数学原理,我们应该先将目前的kernel转置,这样我们反卷积的结果才是正确的。
2024-05-22 07:30:00
2189
原创 纯C语言实现CNN-46页超详细解析——(二)(反向传播以前解析)
在卷积神经网络中,这种展平操作是必要的,因为全连接层期望输入为一维数组,而卷积层的输出是多维的。此外,代码中的注释 “洗牌算法,用于打乱样本” 说明了这段代码的用途,即使样本数据随机化,类似于洗牌,以确保数据的随机性。总结来说,这段代码通过计算输入数组的每个元素的指数,然后除以这些指数的总和,实现了softmax函数,从而得到了一个概率分布。这段代码是神经网络训练过程中的一个环节,目的是遍历所有已打乱的样本数据,进行正向传播和反向传播,同时计算并更新本轮训练的最大交叉熵损失。如果不想读取,应该按 ‘n’。
2024-05-21 15:00:00
1536
1
原创 ESP_32_CAM使用踩坑总结
最近博主手痒,想用esp32cam来做点小视觉项目,奈何做板子经验太少😭,在搞环境部署的时候磕磕绊绊搞了好几天,心态差点崩了。先将踩过的坑整理出来(同时也是感觉网上我找到的类似的讲解其实不是很到位:①有很多讲解代码来源没解释,这个博主也找了好久😹②对于型号的解释不够到位③暂时没想起来,先放一边吧)不听老人言,吃亏在眼前。😭好吧,之所以会踩到这个坑纯属是我作死🤣在没什么Linux基础以及没什么esp32cam使用经验的时候就想当然地想将环境部署到Linux环境下的VSCode中。纯纯🤡了属于是。
2024-05-17 22:50:00
1643
3
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人