- 博客(167)
- 资源 (10)
- 收藏
- 关注

原创 MWSIS: Multimodal Weakly Supervised Instance Segmentation with 2D Box Annotations for Autonomous
1.现状目前还没有仅使用2D框,同时对2D、3D进行实例分割2.提出提出多模态弱监督实例分割MWSIS:结合用于2D和3D模态的各种细颗粒度标签校正模块新的多模态交叉监督方式3.具体贡献2D伪标签生成分支 IPG:利用自监督校正的预测生成伪标签3D伪标签生成分支:SPG通过结合点云的空间先验信息生成伪标签为了进一步细化生成的伪标签,PVC模型利用历史预测进行校正Ring Segment-based Label Correction(RSC)模块,利用点云的深度先验信息来细化预测。
2023-12-17 03:48:00
1041

原创 [Paking Slot系列]Vision-based parking-slot A benchmark and a learning-based approach( IEEE TIP2018)
提出DeepPS公开了数据集ps2.0
2022-03-31 14:40:13
4136
2

原创 [目标检测系列]ATSS: Bridging the Gap Between Anchor-based and Anchor-free Detection via ATSS(CVPR2020)
文章主要是在寻找造成 anchor-based 和 anchor-free 之间性能差异的主要因素,并指出该因素为正负样本的定义。假如采用相同的定义,那么回归方法对最后的结果产生的影响是较小的。
2022-03-29 20:48:18
3571

原创 [ZSS系列]Prototypical Matching and Open Set Rejection for Zero-Shot Semantic Segmentation(ICCV 2021)
提出了零镜头语义分割,其目的不仅是识别训练中包含的已知类,还包括从未见过的新类。
2022-03-29 02:04:39
4253

原创 SOLOv2训练自己数据集(实例分割,停车位/牛分割)
1. 环境搭建 2. 修改配置文件下载权重 3. 修改配置文件 4. 自定义数据集转COCO格式5. 实验结果
2022-03-20 01:46:36
10495
48

原创 PifPaf: Composite Fields for Human Pose Estimation
发表于arxiv, 一个bottom-up的方法, 用来预测单张图片中多个人体的关节点位置, 已开源
2022-03-05 02:11:00
3692

原创 mmsegmentation训练自定义数据集(语义分割,Upernet,Swin-T)
mmsegmentation训练自定义数据集(语义分割,Upernet,Swin-T)1. 论文复现1.1. 原文结果1.2. 复现结果1.3. Test阶段速度:2. Mmsegmentation Trick2.1. Pipeline(加载数据、数据增强)2.2. 损失函数选择2.3. 学习率策略2.4. 其他trick3. 训练FRFL相机数据集3.1. 修改配置文件:3.2. 实验参数修改3.3. 消融实验3.3.1 参数作用3.3.2. 消融实验3.3.3. 实验精度3.4.分割效果(白色或紫色为
2022-03-04 16:11:31
8619
33

原创 MMSegmentation 训练测试全流程
MMSegmentation 训练测试全流程1.按照执行顺序的流程梳理Level 0: 运行 Shell 命令:Level 1: 在 tools/train.py 内:Level 2: 转进到 mmseg.apis 模块的 train_segmentor 函数内:Level 3: 转进到 mmcv/runner/iter_based_runner.py 内的 IterBasedRunner 类的 run 函数内部:Level 4: 转进到 IterBasedRunner 类的 train 函数内部Level
2022-02-17 12:00:35
6331
1

原创 CVPR2021 | 2D目标检测论文解读
CVPR2021 | 2D目标检测论文解读1. UP-DETR:——《UP-DETR: Unsupervised Pre-training for Object Detection with Transformers(Oral)》2. OWOD——《Towards Open World Object Detection(Oral)》3. YOLOF——《You Only Look One-level Feature》4. DeFCN——《End-to-End Object Detection with Fu
2021-08-22 02:03:45
3213
1

原创 Oriented R-CNN:面向旋转目标检测的 R-CNN(ICCV2021)
本文提出一种通用的两阶段旋转目标检测器,具有良好的准确性和效率,表现SOTA!性能优于Mask OBB、SCRDet等网络,代码现已开源!作者单位:西北工业大学
2021-08-14 01:59:53
9540

原创 盘点CVPR2021中5篇数据扩增论文
数据扩增一直是竞赛中非常重要的一环,在CVPR 2021论文中有不少的数据扩增方法,本文将对其中通用的论文进行介绍。
2021-08-10 01:37:36
3606
2

原创 IDM:用于域自适应行人Re-ID的中间域模块(ICCV2021)
即插即用!本文提出一种用于无监督域自适应行人Re-ID的中间域模块:IDM,表现SOTA!性能优于SpCL、GLT和UNRN等网络,代码刚刚开源!作者单位:北京大学, SUTD, 旷视, 新加坡国立大学, 鹏城实验室
2021-08-07 19:48:42
2433
1

原创 如何在数学建模比赛中稳拿奖——个人100%获奖经验分享
1. 和谁组队:2. 负责算法的赛前准备:3. 负责数据分析的赛前准备:4. 负责论文的赛前准备:1. 评委的评分方式2.优秀论文特点:
2020-11-09 15:08:31
121789
63

原创 2020研究生数学建模E题--AlexNet深度网络解法(大雾能见度估计与预测)(含代码)
3.1 数据预处理3.2 AlexNet深度网络(1)AlexNet结构图:(2)AlexNet结构细分图:(4)各层的作用(5)Python+Tensorflow程序实现AlexNet网络(6)AlexNet网络解题(MATLAB)3.3 运行结果4.1 使用Relu作为激活函数4.2 局部相应归一化(Local corresponding normalization)4.3 Dropout4.4 层叠池化
2020-10-24 00:35:27
9165
14
原创 Rethinking External Slow-Thinking: From Snowball Errors to Probability of Correct Reasoning
概述:本文研究了大型语言模型(LLMs)中的外部慢思维方法,重点关注推理中的雪球误差效应,并提出增强模型的推理能力和优化奖励函数可能会带来更有效的长期推理准确性提升。
2025-02-03 19:53:29
709
原创 Mixture-of-Mamba: Enhancing Multi-Modal State-Space Models with Modality-Aware Sparsity
概述:Mixture-of-Mamba引入了一种新颖的模态感知稀疏架构,用于状态空间模型,显著提高了多模态预训练的计算效率和性能,实现了训练成本最高降低65%的同时,在各种任务中保持了稳健的结果。
2025-02-03 19:50:37
528
原创 LLM-powered Multi-agent Framework for Goal-oriented Learning in Intelligent Tutoring System
概述:GenMentor是一个创新的基于大型语言模型的多智能体框架,旨在通过准确的技能差距识别、自适应学习者画像和量身定制的内容传递,提升智能辅导系统,提供个性化、目标导向的学习体验。
2025-02-03 00:58:52
1057
原创 Harnessing Diverse Perspectives: A Multi-Agent Framework for Enhanced Error Detection in Knowledge G
东南大学&中国移动研究所:利用多元视角:一种多智能体框架用于增强知识图谱中的错误检测🎯 推荐指数:🌟🌟🌟🌟 概述:本文介绍了MAKGED,一个多智能体框架,通过对三元组的协同分析利用多样化的视角来增强知识图谱的错误检测,与现有方法相比,显著提高了准确性和透明度。
2025-02-03 00:56:55
740
原创 LiT: Delving into a Simplified Linear Diffusion Transformer for Image Generation
概述:本文介绍了线性扩散变换器(LiT),这是一种高效的图像生成模型,利用简化的线性注意力机制和创新的训练策略,以显著减少训练步骤,实现高分辨率的照片级真实图像,使其适用于资源有限的设备。
2025-01-23 14:41:53
486
原创 ImageRef-VL: Enabling Contextual Image Referencing in Vision-Language Models
本文引入并正式定义“上下文图像引用”,作为视觉语言模型(VLMs)的一项新任务,涉及从检索文档中选择和整合相关图像,以增强多模态对话人工智能中的聊天机器人响应。
2025-01-23 14:28:51
753
原创 2025美赛|数学建模E题思路——为农业再培养腾出空间
1. 模拟当前的生态系统2. 评估化学物质的影响3. 物种的重新出现4. 人类决策的影响5. 建议和分享见解
2025-01-18 09:38:09
799
原创 Natural Language-Assisted Multi-modal Medication Recommendation
概述:本文提出了自然语言辅助的多模态药物推荐框架(NLA-MMR),该框架通过整合电子健康记录、化学结构和文本描述,利用预训练语言模型增强组合药物推荐,从而提高临床实践中的准确性和个性化。
2025-01-15 14:26:49
767
原创 2025美赛|数学建模B题思路——朱诺市旅游业的可持续发展,应用于巴厘岛
. 建立可持续发展旅游业的模型2. 影响因素敏感性分析3. 模型适应性
2025-01-15 14:11:28
1598
原创 2025美赛|数学建模A题思路——控制在楼梯上经常磨损
1.确定楼梯的建造日期2.分析楼梯的使用模式3.验证疲劳模式与历史信息的一致性4.确定材料的来源
2025-01-15 14:09:09
1721
1
原创 中国科学院|PPTAgent:超越文本到幻灯片的演示文稿生成与评估
概述:PPTAgent是一种新颖的两阶段框架,用于自动生成高质量的演示文稿,集成了内容、设计和连贯性评估,显著优于传统方法,同时提供了一个名为PPTEval的综合评估系统。
2025-01-09 08:46:59
1146
原创 xSRL: Safety-Aware Explainable Reinforcement Learning -- Safety as a Product of Explainability
概述:本文介绍了xSRL,一个框架,通过整合局部和全局解释来增强强化学习代理在关键应用中的安全性和可解释性,从而提高信任度和可用性,同时解决代理策略中的脆弱性。
2025-01-03 10:40:48
723
原创 Gradient Weight-normalized Low-rank Projection for Efficient LLM Training
概述:本文介绍了梯度权重归一化低秩投影(GradNormLoRP)方法,该方法通过减少内存使用并保持与全面微调相当的结果,显著提高了大型语言模型训练的效率和性能,从而使得在消费级GPU上进行训练成为可能。
2025-01-03 10:33:23
776
原创 Attribution for Enhanced Explanation with Transferable Adversarial eXploratio
概述:本文提出了AttEXplore++框架,通过整合多种可转移的对抗攻击方法,增强深度神经网络的可解释性,提高多个模型的特征归因准确性和鲁棒性。
2025-01-03 10:24:00
648
原创 Molar: Multimodal LLMs with Collaborative Filtering Alignment for Enhanced Sequential Recommendation
🌟 概述:Molar是一个新颖的多模态大型语言模型框架,通过有效整合协同过滤与文本和非文本数据,增强了序列推荐系统,从而提高了推荐准确性和用户兴趣建模
2024-12-31 00:43:14
457
原创 EDGE: Enhanced Grounded GUI Understanding with Enriched Multi-Granularity Synthetic Data
🌟 概述:EDGE是一个新颖的框架,通过自动合成来自网页的多样化、多粒度训练数据,增强了大型视觉语言模型在理解和与图形用户界面交互方面的性能,显著减少了对人工标注的依赖。
2024-10-28 15:45:58
889
2020研究生数学建模——大雾能见度估计与预测(E题)AlexNet深度网络解法MATLAB代码
2020-10-29
2020研究生数学建模——大雾能见度估计与预测(E题)第二题机场视频截图分类文件
2020-10-29
2020华为杯研究生数学建模比赛赛题
2020-10-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人