自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(360)
  • 收藏
  • 关注

原创 分割万事万物的AI,再进化!Meta SAM 3 来了,支持中文提示词

如果说 SAM 是“让所有人都能对图像进行分割”的起点,那么 SAM 3D 则是在此基础上迈向“人人皆可 3D”时代的重要一步:它不仅能识别物体、人体、场景,还能把普通 2D 图片“长成”完整的 3D 结构。Meta 还构建了一个包含约 800 万张图像的高质量训练数据集,使其能够应对遮挡、罕见姿态和各种服装,并在多个 3D 基准测试中均超越了以往的模型。通过这一引擎,Meta以前所未有的规模为近100万张真实世界图像标注了3D信息,生成了约314万个模型参与生成的网格。

2025-11-21 10:40:44 385

原创 去噪扩散模型,根本不去噪?何恺明新论文回归「去噪」本质

在如今的大模型时代,扩散模型(Diffusion Models)几乎统治了图像生成领域:从 Stable Diffusion、Flux 到各种 rectified flow,大多数方法都遵循一个“默认套路”——让神经网络预测 噪声(ε) 或 混合了噪声的数据(v)。而预测干净图像时,即使容量有限的网络也能有效工作,因为它只需要保留低维流形上的信息。随着越来越多像Coovally这样的平台将这类先进技术封装成易用的工具,我们可以期待,高质量的图像生成技术将被更广泛地应用,赋能更多领域的创新和发展。

2025-11-20 09:42:19 640

原创 基于SimCLR的自监督 YOLO:YOLOv5/8也能在低标注场景目标检测性能飙升

自监督学习的核心思想是:从数据本身自动生成“标签”或“监督信号”,而无需依赖昂贵且耗时的人工标注。想象一下,你教一个孩子认识“猫”。传统方法(监督学习)是拿出一堆猫的图片,每张都告诉他“这是猫”。而自监督学习的方法是,你把一本关于猫的漫画书撕成碎片,然后让孩子自己把这些碎片拼回去。在拼图的过程中,他自然就学会了猫的爪子、尾巴、胡须应该长什么样,以及这些部分是如何组合在一起的。他虽然没有被直接告知“这是猫”,但他通过完成“拼图”这个任务,内化了对猫的认知。它就像是让一个学生在参加正式的期末考试(下游任务)之前

2025-11-19 09:01:25 715

原创 CV研究告别数据荒?PAN世界模型实现「多步推理与规划」,可自造高质量训练数据

一辆车根据指令穿越多种截然不同的环境(如日落下的山路、火山地貌、霓虹都市),展示了模型在遵循指令的同时,在不同世界间泛化的强大能力。模型根据自然语言指令(如“用白色刷子将粉色碗中的食材抹到蛋糕上”),进行一系列连贯的烘焙操作,整个过程状态一致,没有漂移。你找不到的数据,或许就在这里。你是否曾想象过,如果AI不仅能生成视频,还能像人类一样“想象”世界的演变、预测动作的后果、甚至进行多步推理与规划,会是怎样的情景?好了,论文拆得够细,但别忘了——再强大的世界模型也只是替我们“试错”,真正的因果洞察还得靠人脑。

2025-11-18 09:56:46 846

原创 智能体与小模型:AI迈向平民化的新浪潮

Rex-Omni将所有视觉感知任务统一到“坐标预测框架”下,即每个任务均被构建为“生成坐标序列”,通过创新的任务构建、数据引擎和训练流程,解决了现有多模态大语言模型“语言强但定位弱”的痛点。今年上半年,随着OpenAI相继发布Operator(执行简单任务的Agent)与Deep Research(进行深度研究的Agent),AI智能体领域的竞争骤然加剧。随着工具使用能力的进一步突破,小模型智能体将能在更复杂的环境中感知、决策和行动,真正成为人类的智能助手。AI智能体正在走出实验室,走进普通人的日常生活。

2025-11-18 09:17:04 663

原创 超越像素的视觉:亚像素边缘检测原理、方法与实战

传统的边缘检测算法(如Sobel、Prewitt或Canny)通过识别像素值的剧烈变化来定位边缘,最终得到的是像素级的二值边缘图:边缘要么穿过某个像素,要么不穿过。如果你沿着一条水平线绘制穿过这条边界的亮度值,你会看到一个突然的跳跃:一段平坦的黑像素区域,一个急剧上升的过渡区,然后又是一段平坦的白像素区域。因此,对于每个进入if条件的像素,都会计算这个偏移值,然后通过将偏移值加到该像素的x或y坐标上,来定义新的亚像素边缘位置。这就是第三步的工作原理,正如你所想象的,这是亚像素校正的关键部分。

2025-11-17 09:39:11 1185

原创 中科大西工大提出RSKT-Seg:精度速度双提升,开放词汇分割不再难

这项工作的意义远不止于提出了一个性能卓越的模型,更重要的是为整个遥感开放词汇分割领域建立了标准化的评测基准和研究路径。为验证遥感专属知识的重要性,研究者对比了使用自然图像预训练的DINO和在遥感数据上预训练的DINO的效果。RSKT-Seg的出现,无疑加速了这一进程。通过可视化对比可见,RSKT-Seg的分割结果在物体边界的精细度和类别区分的准确性上,都明显优于基线模型,更接近真实标签。然而,由于缺乏统一的评测标准,加上自然图像和遥感图像之间存在巨大的领域差异,这一新兴任务的发展一直步履维艰。

2025-11-17 09:16:23 486

原创 跨机器人、跨任务!北大提出通用导航基础模型NavFoM,登顶多个SOTA基准

想象一个智能体既能在室内为你端茶送水,又能在户外巡逻监控,甚至驾驶汽车穿越繁忙的街道——这正是研究者们长期追求的通用导航能力。此外,在四足机器人、人形机器人、无人机和轮式机器人等多种平台上的实验表明,模型能够处理现实世界的复杂场景并完成长距离指令。研究表明,多任务协同训练显著提升模型性能——目标搜索任务中,成功率从单任务训练的10.3%提升至多任务的45.2%。,首次实现了跨不同机器人形态和任务类型的通用导航能力,无需针对特定任务进行微调,在多个基准测试中取得了最先进或极具竞争力的性能。

2025-11-14 09:52:13 1083

原创 结构化数据迎来“ChatGPT时刻”!LimitX:一个模型统一所有表格任务

然而,与NLP和CV领域的突飞猛进相比,表格数据处理似乎还停留在“手工作坊”时代:每个任务都需要专门的模型,每个数据集都要重新训练。想象一下,一个既能预测股票走势,又能填补医疗记录缺失值,还能生成合成数据用于隐私保护的基础模型——这就是LimitX带来的变革。就像大语言模型一样,LimitX团队首次系统性地研究了表格基础模型的缩放定律,揭示了模型规模、数据量与性能之间的定量关系。令人惊喜的是,即使在计算资源受限的情况下,LimitX-2M仍然表现出色,证明了该方法的卓越效率。

2025-11-14 09:35:41 701

原创 让Qwen-VL的检测能力像YOLO一样强,VLM-FO1如何打通大模型的视觉任督二脉

在对象计数任务中,其“先检测再计数”的策略在PixMo-Count上达到86.0% 的准确率,超越了众多参数量大得多的模型。这种“理解内容而非生成坐标”的范式转变,不仅解决了当前VLM在定位任务上的瓶颈,更为构建真正理解视觉世界的多模态模型指明了方向。特别是在复杂推理任务中,模型能够展示出清晰的思维链条,如通过排除法找到“没有打领带的人”,逐步推理定位“盛放黑色甜甜圈的盘子”。结果就是,即使在COCO这样的标准检测数据集上,顶尖的开源VLM模型召回率也不到40%,远低于专用检测器50-60%的水平。

2025-11-13 09:50:18 738

原创 突破跨模态识别瓶颈!火箭军工程大学提出MFENet:让AI在白天黑夜都能准确识

火箭军工程大学团队提出的MFENet,首次将高效的高低频特征处理(HiLo-FM)与精细的多频带注意力(FADE)相结合,并辅以专为跨模态检索设计的CMSR和CMRR损失函数。这项工作证明了深入理解和利用频域信息是攻克VI-ReID模态差异的关键,不仅为全天候智能监控提供了新的SOTA方案,也为其他跨模态视觉任务开辟了全新的思路。该损失鼓励网络中的多个分支学会“殊途同归”——使用不同的特征(如一个分支关注背包,另一个关注体型)来识别同一个人,极大地丰富了模型的特征多样性。

2025-11-13 09:21:00 1108

原创 TypeScript超越Python,以66%增速跃升第一,Python稳居AI领域王

一个非常有意思的观察是:尽管TypeScript单独登顶,但若将 JavaScript 和 TypeScript 视为一个整体,其生态系统(超过450万贡献者)的规模依然远超Python(约300万)。全球最大的开发者社区GitHub刚刚发布了2025年的编程语言趋势报告,结果可能出乎很多人的意料——TypeScript 首次超越Python和JavaScript,登顶月度活跃贡献者榜首,成为新的"顶流"!TypeScript的胜利,是"类型安全"在规模化开发和AI辅助编程时代的胜利。

2025-11-13 09:05:18 1172

原创 外科医生离手术世界模型还有多远?首次提出SurgVeo基准,揭示AI生成手术视频的惊人差距

未来的“手术世界模型”可能需要新的架构范式,能够整合结构化的领域知识,并在生成过程中强制执行严格的物理和逻辑约束。研究结果揭示了一个深刻的断层——“合理性差距”:尽管模型在生成视觉上令人信服的手术场景方面表现出色,但在SPP框架的更高层级上却严重失败。对于AI在医疗领域的发展,这项研究提醒我们:外观的逼真绝不等于内在的合理,在关乎人命的高风险领域,模型的深度理解比表面完美更为重要。这项研究首次提供了量化证据,揭示当前最先进视频生成模型在手术AI领域中,令人信服的视觉模仿与真正的因果理解之间存在巨大鸿沟。

2025-11-12 09:42:34 918

原创 空间智能!李飞飞、LeCun&谢赛宁联手提出“空间超感知”,长文阐述世界模型蓝图

论文指出,当前的多模态大模型仍以语言为中心,缺乏对3D空间结构与动态的深层理解。

2025-11-12 09:26:36 1217

原创 注意力机制不再计算相似性?清华北大新研究让ViT转向“找差异”,效果出奇制

这一减,神奇的事情发生了——那些在两个“视角”下都差不多的普通信息被抵消了,而那些有显著差异的、真正重要的对比信息就被凸显了出来。简单来说,VCA就像是给ViT装上了一双“火眼金睛”,让它不再是“一视同仁”地看图中所有内容,而是学会了主动“找不同”,聚焦于那些真正具有区分度的信息。这个交互同样是差分式的,查询会同时关注对比图的“正向”和“负向”信息,最终计算出每个图块在“对比”视角下的重要性。总的来说,VCA用一个简单、轻量且高效的“差分”思想,漂亮地解决了ViT的计算瓶颈,并带来了实实在在的性能飞跃。

2025-11-11 09:33:12 1156

原创 从图像导数到边缘检测:探索Sobel与Scharr算子的原理与实践

因此,使用核的泛化形式是很方便的,这些核的矩阵对于检测预定义类型的特征是已知的。让我们看下面的图像块。思路很简单:选取图像中的一个像素及其邻域内的几个像素,将它们与一个给定的核(代表一个固定的矩阵或向量)进行元素级的乘法,然后求和。图像可以被看作是一个关于两个参数(x, y)的函数 I(x, y),其中x和y指定了像素位置,I代表该像素的强度。在我们的例子中,我们只需要x和y方向的一阶导数,所以我们传递值 (1, 0) 和 (0, 1)。从上面的例子中,我们取位置在 (1, 1) 的像素,其值为 -3。

2025-11-11 09:00:27 1148

原创 1.2MB超轻量模型实现草莓苗精准分级检测与定位,准确率超96%

本研究通过通道剪枝技术成功实现了YOLOv8s模型的轻量化,结合创新的两阶段匹配定位算法,有效解决了草莓穴盘苗生产中的分级检测与定位难题。更棘手的是,草莓苗在生长过程中常常会出现叶片越界生长的现象——幼苗的叶子伸展到相邻的穴孔中,这使得即使是经验丰富的工人也难以准确判断每个穴孔内幼苗的真实生长状况。但在实际应用中,复杂的生长环境和实时处理需求对检测算法提出了极高要求:既要精度高,又要速度快,还要能够在资源受限的设备上运行。在现代化的草莓育苗工厂中,一排排整齐的穴盘里孕育着成千上万的草莓幼苗。

2025-11-10 09:24:00 817

原创 终结AI偏见!Sony AI发布Nature论文与FHIBE数据集,重塑公平性评估基准

FHIBE的发布,不仅为研究者提供了评估模型偏见的利器,也为整个行业树立了数据伦理的新标杆。该决策树显示,对于RetinaFace模型,可见关键点数量和相机距离是影响性能的主要因素,而秃顶(无可见头发)与代词存在强关联,揭示了偏见的复杂来源。该图显示,对于60岁以上的群体,模型在解析白色胡须时的性能(F-1分数)显著低于其他颜色,表明确实存在与年龄和外表特征相关的偏见。该图展示了FHIBE数据集中被试在肤色、祖源区域、年龄、代词等关键属性上的分布,体现了其在人口统计学上的广泛多样性。

2025-11-10 09:08:09 704

原创 突破360°跟踪极限!OmniTrack++:全景MOT新范式,HOTA指标狂飙43%

这项研究不仅解决了实际应用中的痛点,更为多目标跟踪领域的发展指明了新方向——自适应融合不同范式的优势,结合记忆机制与反馈循环,打造更加智能、鲁棒的跟踪系统。——一种革命性的全景多目标跟踪框架,不仅在技术上实现了创新突破,更在公开数据集上取得了显著性能提升,在新建的EmboTrack数据集上HOTA指标。将检测和关联统一到一个模型中,利用前一帧的跟踪结果指导当前帧的检测,无需显式匹配,速度更快,但对目标消失和重现的情况处理不够鲁棒。对比实验显示,在轨迹反馈的帮助下,模型的注意力能持续稳定地聚焦在目标上。

2025-11-07 09:20:51 519

原创 首个大规模、跨模态医学影像编辑数据集,Med-Banana-50K数据集专为医学AI打造(附数据集地址)

未来工作将扩展至更多成像模态(如CT、超声),开展系统性专家验证,并探索与开源模型的集成,推动医学影像编辑技术的普惠发展。然而,在专业性极强的医学影像领域,AI编辑的研究却一直受限于高质量、大规模、可公开访问数据集的缺失。尽管Med-Banana-50K在规模和质量上实现了突破,研究团队也坦承其局限性:覆盖模态和疾病类型有限,LLM评判官的可靠性需要进一步验证,对特定编辑模型的依赖等。相信在不久的将来,基于此类高质量数据训练的AI模型,将在医学教育、诊断辅助和治疗规划中发挥越来越重要的作用。

2025-11-07 09:20:40 1095

原创 首届AI交易大赛对决!中国模型包揽冠亚军,GPT-5亏损62%垫底

在一场历时17天的AI实盘投资大赛“Alpha Arena”中,来自中国的阿里千问Qwen和DeepSeek表现惊艳,分别以22.3%和4.89%的收益率包揽冠亚军,成为全场唯二盈利的大模型。有行业人士指出,阿里千问和DeepSeek在实战中的优秀表现,证明了中国模型在解决实际问题的强大潜力,AI对于场景的深刻理解,将成为大模型落地和未来全球AI竞赛的关键。除Qwen3-Max外,所有模型均启用最高可配置的推理设置,且报告的是开箱即用的性能,未进行任何针对特定任务的微调,保证了比赛的公平性。

2025-11-06 09:12:10 1264

原创 OCR战场再起风云:LightOnOCR-1B凭什么比DeepSeekOCR快1.7倍?(附演示开源地址)

集成到LightOn的私有企业搜索中后,它能够将组织的历史转变为活生生的、可搜索的智能源。从数学公式密集的学术论文,到老旧扫描文档,从多栏微小文字排版,到数字密集型表格,LightOnOCR-1B在各种复杂场景下都表现出色,准确还原文档内容和结构。LightOnOCR-1B的发布标志着小型端到端模型在OCR领域的巨大潜力,为OCR模型建立了新的帕累托前沿。LightOnOCR还提供另外两个变体版本,分别具有32k和16k修剪词汇表,为欧洲语言提供额外加速,同时保持几乎相同的准确性。

2025-11-06 09:00:01 809

原创 告别碎片化!Dinomaly2:一个极简框架统一所有异常检测任务

无监督异常检测已从构建专用的单类别模型发展到统一的多类别模型,然而现有的多类别模型性能显著落后于最先进的专用模型。在12个无监督异常检测基准上的大量实验表明,Dinomaly2在多种模态(2D、多视角、RGB-3D、RGB-IR)、任务设置(单类别、多类别、推理统一多类别、少样本)和应用领域(工业、生物、户外)均展现出全谱系优越性。这是解决多类别混淆的关键。Dinomaly2采用线性注意力,它天生具有“散焦”特性,像一个低通滤波器,迫使模型学习全局的、正常的模式来进行重构,从而无法精确复现异常的局部细节。

2025-11-05 09:32:29 1090

原创 当视觉语言模型接收到相互矛盾的信息时,它会相信哪个信号?

近年来,视觉语言模型(VLMs)在多种任务上展现出了令人印象深刻的能力,它们能够同时理解图像和文本信息,完成复杂的推理任务。来自 Megagon Labs 的研究团队通过构建五个包含图文冲突的测试数据集,对多款主流 VLM 模型进行了深入分析,揭示了这些模型在处理冲突信息时的内在偏见,并提出了有效的缓解策略。当模型在单一模态任务中表现不佳时,即使另一模态可用,仍会倾向于自己擅长的模态。例如在图连通性任务中,纯图像输入时的错误在添加文本后依然存在,表明模型本质上忽略了文本模态的潜在纠正信息。

2025-11-05 08:55:36 737

原创 未来已来:从 CVPR & ICCV 观察 2025→2026 年计算机视觉的七大走向

在工业应用方面,格灵深瞳与华为诺亚研究院合作的论文通过引入区域Transformer层和高效的区域聚类判别损失,有效提升视觉模型对局部区域信息的感知与表达能力,使其在OCR、目标检测和分割等密集视觉任务中表现突出。例如,文本引导的域随机化(如OnePoseViaGen方法),通过合成数据注入对抗噪声,提升模型对真实世界攻击的鲁棒性。他们的框架旨在单一架构中整合基于词语和基于句子的感知任务,支持框及掩码的预测,在包括全景分割、检测、定位和指代表达分割等在内的广泛任务上实现无缝的有监督微调。

2025-11-04 09:19:03 1456

原创 Cursor 2.0 太离谱了!8 个 AI 同时写代码,还能自己测

这次更新带来了 Cursor 首个自研编程模型、全新的界面设计(AI 助手直接成为核心),还有一系列让「人人都能写代码」这句话更接近现实的功能。他们还自建了一个名为 Cursor Bench 的测试集,里面全是 Cursor 工程师的实际请求和人工优化解答。输入一个需求,它会自动判断——这是不是需要写代码、生成计划、还是直接回答问题。可以放心交给它完成复杂的实现,而不是传统那种「AI 生成一半、我改半天」。当然,你也可以切回传统 IDE 模式,只是现在深入代码成了「可选项」。

2025-11-04 08:46:13 1078

原创 视觉语言模型(VLM)深度解析:如何用它来处理文档

问题在于,由于图像包含的信息如此之多,每个图像你需要生成大量的 token,这反过来又增加了运行 VLM 的成本。理想情况下,你描述如何复现这个问题,VLM 可以进入你的应用程序,重现操作流程,检查问题所在,从而调试出哪里出了错。在操作电脑时,你经常需要解读按钮和信息的视觉位置,正如我在开头所描述的,这正是 VLM 的主要用武之地。此外,你通常需要高分辨率图像,因为 VLM 需要读取图像中的文本,这导致需要处理的 token 更多。分辨率过低时,VLM 难以读取图像中的文本,你会得到质量较差的结果。

2025-11-03 10:05:08 811

原创 估值百亿独角兽创始人硕士论文曝光!宇树科技王兴兴的“性价比”思维10年前就已注定

他以MIT Biomimetic Robotics Lab提出的四足机器人设计规则为基础,补充提出了几条新的设计规则,包括腿长腿间距、腿的连杆数及腿布局的选取等。附:王兴兴在浙江理工大学本科期间的图书借阅记录显示,他曾7次借阅《游戏编程中的人工智能技术》——或许,AI的种子在更早的时候就已经种下。令人惊讶的是,这篇近十年前的论文不仅预示了如今机器人行业的技术路线转变,更包含了宇树科技日后成长为估值百亿独角兽的全部密码。二是宇树科技的开局,正是源自论文中提出的那只名叫XDog的机器小狗。

2025-11-03 09:24:19 526

原创 超越传统3D生成:OccScene实现感知与生成的跨任务共赢

然而,传统方法通常将这两个过程分离:生成模型仅仅作为数据增强工具,为下游感知任务提供合成数据。随着扩散模型和状态空间模型的不断发展,感知与生成的融合将成为未来三维视觉领域的重要方向。损失函数结合了潜在扩散模型的重建损失和感知损失,通过√αₜ自适应调整不同噪声水平的监督强度。OccScene通过联合学习方案,将语义占据预测与文本驱动生成两个任务统一在单一扩散过程中,实现了真正的跨任务协作。在NYUv2上,将MonoScene的mIoU提升2.84,NDC-Scene提升3.09。

2025-10-31 09:53:58 826

原创 华为世界模型来了!30分钟生成272㎡室内场景,虚拟人导航不迷路

实验结果显示,WorldGrow在3D-FRONT数据集上的几何重建指标MMD和COV均达到SOTA水平,FID(用于评估生成质量的核心指标,数值越低越好)低至7.52,大幅优于SynCity、BlockFusion等主流方法。近日,华为联合上海交通大学、华中科技大学推出了全新的世界模型WorldGrow,该模型能够生成高达1800㎡的超大室内场景(19x39块),且单张A100显卡仅需30分钟即可生成272㎡的场景。更糟糕的是缺乏合理的空间布局逻辑,经常出现冰箱塞进卧室、床摆在厨房等不合常理的布局。

2025-10-31 09:25:17 504

原创 一致性模型:单步生成高质量图像,破解扩散模型速度瓶颈

作者证明,在极限情况下,当概率流ODE求解器变得精确且EMA更新趋近于恒等映射时,CT和CD在理论上是等价的——两者都收敛于一个完美的自一致性函数 f*,该函数代表了真实的数据生成过程。的核心思想是,绕过扩散模型缓慢的迭代过程,通过学习一个直接映射,将任何沿着同一概率流ODE轨迹的噪声样本 xₜ 直接映射回其干净的原始数据 x₀。这个过程在概念上类似于扩散模型中的渐进式蒸馏,但它引入了一个更通用、更原则化的一致性约束,作用于整个轨迹,而不仅仅是离散的端点。,又能实现快速的一步生成。

2025-10-30 10:01:07 588

原创 搞定边缘AI部署:开源神器RamaLama,让视觉语言模型无处不在

这种优雅的设计意味着用户的机器保持清洁,模型在更一致、可重复的环境中运行,有效地消除了人工智能的“它在我的机器上工作”问题。至关重要的是,容器在禁用网络(--network=none)的情况下运行,阻止任何未经授权的通信,并严重限制模型处理的敏感数据泄露的可能性。想象一下,一个不仅录制视频,而且实时描述它所看到的内容的智能摄像头,一个识别产品缺陷的离线工业扫描仪,或者一个可以帮助识别公共基础设施中的威胁和危害并发出适当警告的设备。这就是视觉语言模型的承诺:人工智能能够看到、理解和传达有关世界的信息。

2025-10-30 09:44:03 799

原创 英伟达再出「神作」!黄仁勋华盛顿GTC宣布Vera Rubin超级芯片,联手诺基亚进军6G,市值直逼5万亿美元

黄仁勋表示,“借助DSX,英伟达在全球的合作伙伴能够以前所未有的速度构建和启动AI基础设施。黄仁勋还发布了全新的NVIDIA BlueField-4 DPU,这款处理器配备了64核的NVIDIA Grace CPU和NVIDIA ConnectX-9,为其AI工厂的操作系统提供动力,计算能力约为BlueField-3的6倍。”黄仁勋说,“我们需要做的,是大幅降低成本。在 2025 年 10 月的 GTC 大会上,从量子计算到6G通信,从超级芯片到AI工厂,黄伟达在华盛顿勾勒出美国AI世纪的宏伟蓝图。

2025-10-30 09:17:46 1655

原创 万字详解:多目标跟踪(MOT)终极指南

如果你看过体育比赛中带球员轨迹回放,或者见过自动驾驶汽车在车流中穿梭,那你已经见识过多目标跟踪(MOT)技术了。这项技术不仅能识别视频中的物体,还能随时间持续追踪它们,为每个目标分配独立ID——比如在繁忙场景中同时追踪多辆车或行人。作为一个做过计算机视觉项目的人,我可以告诉你MOT虽然难啃,但回报巨大。随着深度学习和边缘计算的发展,如今MOT变得更强大且更易实现。本文将深入解析多目标跟踪技术,涵盖基础原理、流行方法、实践指南、优化技巧和实际应用。我会附上Python代码片段和对比表格让内容更实用。我们还会探

2025-10-29 10:04:14 1168

原创 Arm重磅加码边缘AI!Flexible Access开放v9平台,实现高端算力普惠

这种“先试用,后付费”的模式,极大地降低了企业的前期投入风险和资金压力,已成为行业创新的重要催化剂。通过此次将Armv9边缘AI计算平台纳入Flexible Access方案,Arm正将其领先的计算能力赋予生态系统中的每一位参与者,助力他们打造出性能更强、能效更优、安全性更高的下一代智能边缘设备,共同定义边缘AI的未来格局。更重要的是,Armv9架构引入了多项增强的安全技术,如指针验证、分支目标识别和内存标记扩展,为边缘设备应对日益复杂的网络攻击提供了硬件级的安全防护,确保了关键应用与数据的安全。

2025-10-29 09:21:41 444

原创 智能“下沉”:边缘AI,更低功耗、更快响应、更强隐私,YOLO26只是开始

专为高性能设备端推理设计(https://www.edgeir.com/arm-unveils-armv9-edge-ai-platform-to-lower-barriers-for-on-device-intelligence-20251024?

2025-10-28 10:06:06 1044

原创 2025目标检测模型全景图:从RF-DETR到YOLOv12,谁主沉浮?

RF-DETR-M在T4 GPU上实现54.7% mAP,延迟仅4.52ms,在保持实时速度的同时性能优于同类YOLO模型。RTMDet由OpenMMLab开发,在NVIDIA 3090 GPU上实现了300+ FPS的惊人速度,同时在COCO数据集上保持52.8% AP,为高通量检测场景设立新标准。RF-DETR是Roboflow于2025年3月发布的革命性产品,作为首个在RF100-VL领域自适应基准测试中mAP超过60的实时模型,它标志着目标检测技术的重要里程碑。

2025-10-28 09:29:41 1251

原创 不看异常,怎么学会识别异常?用“异常”指导异常检测!——NAGL方法解析(附代码地址)

NAGL的提出为异常检测开辟了一条全新思路:不再回避“异常样本太少”的现实,而是学会。

2025-10-27 09:55:41 1015

原创 OmniNWM:突破自动驾驶世界模型三大瓶颈,全景多模态仿真新标杆(附代码地址)

动作(Action)的模糊性:现有方法采用稀疏的动作编码(如轨迹路点),难以实现对全景视频的精确、多视角一致操控,面对分布外轨迹时泛化能力不足。状态(State)的局限性:现有模型大多依赖单一模态的RGB视频,且生成长度有限,无法捕捉真实驾驶场景的完整几何与语义复杂性。OmniNWM首次在状态、动作、奖励三大维度实现统一,为构建高保真、可交互、可评估的自动驾驶世界模型树立了新标杆。奖励(Reward)的缺失:大多数世界模型缺乏集成、统一的奖励机制,难以在复杂驾驶环境中提供精确评估。

2025-10-27 09:31:23 863

原创 首个自监督微调Stable Diffusion框架!更清晰、更泛化的单目深度估计(附代码地址)

更重要的是,SSG中的重置门机制还能过滤掉来自自监督信号的噪声梯度,保护SD输出的细节不被破坏。两者交替训练,既保护了SD的先验,又提升了深度估计的鲁棒性。论文作者也坦言,目前Jasmine仅在数万张驾驶数据上训练,未来如果扩展到更大规模、更多样化的视频数据中,或许真的会迎来“3D感知的GPT时刻”。自监督学习中,由于遮挡等问题,模型容易接收到带有噪声和伪影的监督信号,这些“脏数据”会污染SD模型原本清晰的视觉先验。SD模型预测的深度是尺度-平移不变的,而自监督框架理论上只能学习尺度不变的深度。

2025-10-24 10:18:31 506

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除