- 博客(15)
- 收藏
- 关注
原创 论文精读(8):DINOv3:自监督视觉模型的新一代利器
DINOv3 是一款自监督学习(Self-Supervised Learning,SSL)视觉模型。传统有监督的视觉模型训练,比如分类任务、检测和分割任务,都需要大量人工标注的数据,比如标注猫 🐱、狗 🐶、车 🚗 等,数据量越大,标注成本越高。无需人工标注,它能自己学习图像中的规律和特征。就像小朋友👶通过观察周围事物,慢慢学会区分不同物体,DINOv3就是一种自监督学习的框架。Meta可视化了使用DINOv3输出特征获得的余弦相似度图,这些图展示了带有红色十字标记的块与其他所有块之间的相似度。
2025-09-19 22:30:00
986
原创 论文精读(7): DINO 系列自监督视觉学习发展与 DINOv3 深度解析
不依赖标注:通过多视角裁剪(Multi-Crop)保证特征一致性。中心化 + 温度锐化:稳定输出分布,防止坍塌。:ViT 的注意力自动对齐显著区域,实现类显著性特征。DINO:语义自监督,Emergent AttentionDINOv2:通用可迁移特征,Register Token 与大模型稳定策略DINOv3:多任务可塑性 + 动态 token + 掩码融合 + 分辨率混合训练。
2025-09-09 21:00:00
1230
原创 论文精读(6): ICCV 2025 | 精准控制生成图像中的物体数量?YOLO-Count 给出了可微分的解决方案!
YOLO-Count 是一个支持开集通用、全可微分的物体计数模块,能够无缝集成到 T2I 生成过程中,为“图文一致性”提供数量级别的精细控制,尤其在高数量、大规模、稀疏监督下表现卓越。传统密度图容易受尺度、位置偏差影响,YOLO-Count 引入“基数图”:对每个物体内部均匀分配权重;总和即为目标数量;更鲁棒、不模糊、不重复计数!YOLO-Count 是一个真正能“数清楚”的生成控制模块,把文生图带入“量化控制”的新时代!
2025-08-04 11:27:41
726
原创 论文精读(5): EfficientTAM:更轻更快的“追踪万物”模型,让SAM 2跑进手机!
打包整理好,发布在我们的知识星球【研AI】中,扫码即得!
2025-07-29 10:08:29
781
原创 论文精读(4): CVPR2025|OCRT 如何让基础模型在开放世界中大放异彩?
在计算机视觉领域,基础模型(FMs)如 SAM 和 CLIP 凭借海量数据训练展现出强大能力,但一遇到开放世界的「幺蛾子」—— 比如分布偏移、弱监督或恶意攻击,性能就容易「翻车」。而 CVPR 2025 的新研究提出了一套通用框架,能让这些模型在复杂场景中「抗压能力」飙升。今天我们就来拆解这个「涨点神器」的核心思路。
2025-07-25 20:33:37
808
原创 论文精读(3):智能体互联网(IoA)全解读与实战指南
《智能体互联网(IoA):多智能体协同新范式》 本文介绍了多智能体系统领域的前沿研究《Internet of Agents》,提出了一种受互联网启发的创新架构,旨在解决现有智能体系统生态隔离、单设备模拟局限和刚性通信等痛点。IoA框架包含三大核心设计:分层架构明确职责划分、嵌套团队机制支持动态任务分解、以及基于状态机的智能协作流程。通过五大协同机制实现异质智能体的无缝协作,系统实测在多个任务中性能显著优于传统方法。尽管存在第三方集成难度等挑战,IoA展现出了作为未来AI协同基础设施的潜力
2025-07-21 18:56:24
1217
原创 论文精读(2)| CVPR2025 | VGGT:用一个Transformer搞定3D重建,速度、精度全面超越传统方法!
近年来,3D计算机视觉领域在 SfM、MVS、深度估计等多个任务上取得了飞跃发展,尤其是在大模型和Transformer架构的推动下,一些端到端系统开始尝试挑战传统“视觉几何 + 后处理”的范式。这个模型厉害在哪?一句话总结:🧠VGGT 是一个仅靠前向传播就能完成从图像到3D重建全过程的大型 Transformer,甚至无需 Bundle Adjustment,就能在多个3D任务中超越现有SOTA!
2025-07-17 09:19:46
1285
原创 论文精读(1)| LLM | KAQG:知识图谱增强的RAG框架,实现难度可控的问题生成
今天带来一篇非常值得关注的跨学科研究论文——它实现了一个完整的、协作式的工作机制,贯穿了知识图谱构建基于图谱的检索强化生成(RAG),再到基于教育评估理论的输出校准。从知识处理到难度可控的问题生成。这项工作不仅展示了语义图上下文如何引导大语言模型(LLM)的推理路径,更首次在生成过程中落地了“题目难度指标的可操作性”,为教育评估场景中的智能出题与难度适配提供了创新的AI解法。接下来,我们一起拆解这篇论文的关键内容。本文提出了一个全新框架 —。
2025-07-17 09:17:15
544
原创 AI 推理框架速读(3)—— RKNN
📌 RKNN 推理框架:边缘 AI 的高效部署利器 瑞芯微推出的 RKNN 专为旗下 NPU 芯片(如 RK3588/RK356x)优化,支持主流模型(ONNX/TFLite等)转换为专用.rknn格式
2025-06-10 10:23:35
1645
原创 AI 推理框架速读(2)—— TensorRT
优势描述极速推理提升 2-10 倍推理速度显存占用更少支持 FP16 / INT8 精度支持主流模型可与 ONNX 接口结合高度灵活支持动态输入、动态 shape、batch size 等跨平台部署支持 x86、ARM 架构,适合边缘计算和服务器。
2025-06-03 11:27:18
794
原创 Grounding DINO的colab报错问题解决方法
在Colab上运行GroundingDINO的demo时,遇到了两个主要问题:NameError: name '_C' is not defined和error: subprocess-exited-with-error。这些问题源于Colab上使用的torch2.6.0+cuda12.5或更高版本不再兼容旧的.type()方法,导致GroundingDINO库构建失败。解决方法是修改GroundingDINO/groundingdino/models/GroundingDINO/csrc/MsDeform
2025-05-19 17:12:49
851
2
原创 使用colab快速下载huggingface的大模型文件
第三步,指定需要下载的文件list,执行下载操作,在这里我只下载了几个比较大的参数文件,默认下载路径为/content/download/repo_id,如/content/download/hfl---llama-3-chinese-8b-instruct-v3,在colab的文件夹列表中可以找到。近期在学习大模型的微调与部署应用,需要再huggingface下载预训练好的模型参数文件,这时候问题来了!第二步,导入包,定义函数,并从huggingface获取文件列表,代码参考了。首先我们打开colab,
2024-09-06 11:29:03
2511
原创 yolov10如何去掉非极大值抑制(NMS)的?
第三步,设置一个iou阈值,然后计算候选框与其他框的iou,得到其他框相对于候选框的iou值,若某个框iou值大于设定的阈值,则大概率这个框跟候选框描述的是同一个物体,我们移除所有大于阈值的框,图中需要移除的是蓝色。以上就是nms的过程,去除低置信度的框--去除重叠框,这个算法最大的问题就是去除重叠框时,容易对真实重叠的物体造成误判。第四步,对于多个目标的结果,第三步去除重叠框之后,还剩下其他目标框,我们继续重复选择候选框,去除重叠框的步骤,直到处理完所有候选框(没有其他目标框了),算法结束。
2024-06-07 20:42:48
2455
2
原创 论文阅读(1):病理图像分类TransMIL: Transformer based Correlated Multiple Instance Learning
关于病理图像的论文阅读
2022-09-05 20:34:14
5504
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅