自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(147)
  • 资源 (2)
  • 收藏
  • 关注

原创 Meta SAM-3 重磅发布:视觉 AI 迈入“想分什么就分什么”的自由时代

Meta发布了新一代视觉基础模型Segment Anything Model 3 (SAM-3),实现了从"分割一切"到"理解一切"的跨越。SAM-3通过创新的"可提示概念分割"技术支持文本、示例图和视觉提示,能对图像和视频中的任意概念进行检测、分割和跟踪。其混合AI/人工数据引擎显著提升了训练效率,创建了包含400多万个概念的训练集。

2025-11-20 18:24:59 831

原创 “新王登基”Gemini 3深夜发布,最强AI到底强在哪?

Google发布突破性AI模型Gemini 3,在推理能力、多模态理解和编码效率方面树立新标杆。该模型具备博士级推理水平,在多项AI基准测试中创下新高,并引入"Deep Think"模式增强复杂问题解决能力。

2025-11-19 15:53:54 1133

原创 李飞飞联合杨立昆发表最新论文:超感知AI模型从视频中“看懂”并“预见”三维世界

这篇文章明确地将世界模型视为实现空间超感知这一宏伟目标的最终阶段和核心能力。它诊断了当前 MLLMs 在此方面的不足,并提出了“预测性感知”作为一条具体的、以自监督学习为基础的路径,以开始构建这些至关重要的内部世界模型。

2025-11-12 10:36:35 1066

原创 告别“NPC”人生:Human 3.0,一张通往“顶尖1%”的个人发展地图

文章详细阐述了 Human 3.0 模型的四大象限、三大发展水平、以及突破平台期的关键要素(阶段、特质与通道),并配上了核心概念图表。

2025-11-10 19:41:18 760

原创 七位AI先驱获伊丽莎白女王工程奖,李飞飞是唯一女性代表

2025 年伊丽莎白女王工程奖授予七位工程师,他们为现代机器学习的发展做出了开创性的贡献,这是人工智能(AI)进步的核心组成部分。该奖项今年的主题为现代机器学习(Modern Machine Learning),因此获奖者被 AI 领域人士完全包揽,包括诺贝尔奖得主 Geoffrey Hinton 与 John Hopfield、图灵奖得主 Yoshua Bengio 和 Yann LeCun、英伟达首席科学家 Bill Dally、英伟达创始人和 CEO 黄仁勋以及被誉为"AI 教母"的李飞飞。

2025-11-07 11:16:47 1294

原创 深度解析Andrej Karpathy访谈:关于AI智能体、AGI、强化学习与大模型的十年远见

在整个圈内媒体都在喊「智能体元年」的时代,Andrej Karpathy 的话像是给业内泼了一盆冷水。近日Andrej Karpathy 上了 Dwarkesh 的播客,信息密度极高。他的核心结论可以用一句话概括:Agent 的发展还需要十年。

2025-11-05 22:31:30 776 1

原创 Dinomaly2:最新多类无监督异常检测SOTA

在计算机视觉领域,**无监督异常检测(Unsupervised Anomaly Detection, UAD)**一直是一个充满挑战但至关重要的任务。它旨在不依赖任何异常样本先验知识的情况下,识别出数据中的异常模式,广泛应用于工业质检、医疗诊断和监控系统等领域。然而,当前的 UAD 领域正面临着严重的问题。模型往往针对特定场景(如单类别、多类别、3D 数据、少样本等)进行定制,导致部署复杂、维护成本高昂,并且在多类别任务中,统一模型的性能与最先进的单类别模型之间存在显著差距 [1]。

2025-11-04 20:23:51 836

原创 扩散模型的原理与进阶:一篇长达470页的统一综述解读

本专著阐述了指导扩散模型发展的核心原则,追溯了它们的起源,并展示了各种不同的模型形式如何源于共同的数学思想。扩散模型首先定义一个正向过程,该过程逐步将数据转化为噪声,并通过一系列中间分布将数据分布与一个简单的先验联系起来。其目标是学习一个反向过程,将噪声转换回数据,同时恢复相同的中间分布。我们描述了三种互补的观点。变分观点受变分自编码器的启发,将扩散视为逐步学习去除噪声的过程。基于得分的观点源于能量建模,它学习不断演化的数据分布的梯度,从而指导如何将样本引导至更可能的区域。

2025-11-03 18:25:17 1088

原创 Anthropic 最新研究深度解析:大型语言模型中涌现的内省意识

AI模型展现初阶内省能力,人类认知机制或被部分模拟 Anthropic最新研究表明,Claude系列大型语言模型已具备初步内省能力,能感知并报告特定内部状态。通过"概念注入"实验,研究人员发现Opus 4.1等高级模型可识别20%的人工植入概念(如"全大写""递归"),且在输出前就能察觉异常。更引人注目的是,模型能通过追溯性神经激活修改对自身"意图"的判断,并响应指令调节内部表征强度,这种机制与人类"白熊效应&quot

2025-10-31 17:30:08 1187

原创 技术大佬的私藏书单:4小时讲透AI技术变迁史

本文基于谢青池在《张小珺商业访谈录》中分享的AI学习历程,精选36篇关键论文梳理人工智能发展脉络。文章从GPU计算(Brook)、深度学习开端(AlexNet)到Transformer革命,再到GPT系列演进,系统呈现了AI模型的范式变迁。重点分析了四大支柱(算力、架构、数据、系统)的协同发展,并通过语言模型从词向量到通用智能的跃升过程,展现AI认知能力的突破。文章为AI学习者提供了数学基础、工具使用和优质信源选择等实用建议,是一份浓缩的AI技术发展史与学习指南。

2025-10-29 19:32:47 842

原创 ICCV 2025 最佳论文系列整理:聚焦计算机视觉前沿突破

本文将深入探讨ICCV 2025的各项最佳论文奖项,包括最佳论文(Marr Prize)、最佳论文荣誉提名、最佳学生论文、最佳学生论文荣誉提名,以及表彰十年经典之作的Helmholtz Prize,旨在为读者呈现这些引领未来计算机视觉发展的突破性研究。

2025-10-23 19:53:36 1215

原创 手把手拆解Git项目,复现开源四大AI神器

本文介绍了四款AI工具如何提升Git项目管理效率:DeepWiki通过AI对话解析项目架构和代码逻辑;GitHub Copilot作为编程助手提供智能代码补全;Zread自动生成结构化技术文档并支持AI问答;GitDiagram将代码库转化为交互式图表直观展示项目结构。

2025-10-23 00:26:37 750

原创 RND1:目前最强的扩散LLM

在人工智能领域,模型转换(Model Conversion)是一个核心研究方向,旨在优化现有模型架构和训练目标,而非从零开始构建整个系统。通过模型转换,我们可以更快地迭代模型,并使其适应特定的工作流程、硬件和下游任务。本文将深入探讨 Radical Numerics 团队在这一领域取得的最新进展,特别是他们提出的 RND1 模型及其背后的创新技术。

2025-10-12 16:29:18 964

原创 OpenAI DevDay 2025:ChatGPT 进化为平台,开启 AI 应用新纪元

OpenAI在2025年10月6日的开发者大会上宣布了多项重大更新,旨在将ChatGPT从聊天机器人升级为AI应用平台。核心发布包括:ChatGPT Apps允许用户在对话界面直接使用第三方应用;AgentKit提供构建AI智能体的完整工具集;以及多个新模型API(如GPT-5 Pro和Sora 2)提升算力与功能。这些变革标志着AI正从工具向平台演进,将重塑应用生态和用户交互方式,为开发者创造新机遇,同时也将加剧与科技巨头的竞争。

2025-10-08 22:21:02 896

原创 最新文章分享:LoRA参数高效微调方法及其应用的全面分析

大模型参数高效微调 (PEFT) 方法,尤其是低秩自适应 (LoRA),已成为一种颇具前景的解决方案。LoRA 用低秩更新取代权重矩阵,在保持性能的同时显著减少了可训练参数的数量。但与完全微调相比,LoRA 的实际性能如何?

2025-10-08 13:59:55 709

原创 阿里发布一系列新模型,Qwen3-Omni强势对标Gemini

阿里巴巴发布多模态大模型Qwen3-Omni,对标谷歌Gemini,支持文本、图像、音频和视频的统一处理。同时推出升级版图像编辑模型Qwen-Image-Edit-2509,增强多图编辑和一致性;以及高效文本转语音模型Qwen3-TTS-Flash,支持多语言、多方言和丰富音色,在多项测试中达到SOTA性能。这些新模型彰显了阿里在AI领域加速技术迭代、争夺全球领导地位的决心。

2025-09-24 14:05:52 904

原创 AD-DINOv3:通过异常感知校准增强 DINOv3 的零样本异常检测

本文提出AD-DINOv3框架,首次将DINOv3模型应用于零样本异常检测任务。针对领域偏差和语义偏好问题,该框架采用跨模态对比学习策略和轻量级适配器,并创新性地设计了异常感知校准模块(AACM),引导模型聚焦异常区域。通过多层特征聚合和双损失优化,在8个工业与医疗基准测试中取得领先性能,平均AUROC达94.2%(工业)和84.5%(医疗)。消融实验验证了各模块的有效性,为通用零样本异常检测提供了新思路。

2025-09-24 11:39:45 1336

原创 清华最新发布114页大型推理模型的强化学习综述

本文综述了强化学习在提升大型语言模型(LLMs)为大型推理模型(LRMs)能力中的最新进展与挑战,回顾了以 OpenAI o1 和 DeepSeek‑R1 为代表的里程碑,强调通过 train‑time RL 与 test‑time compute 可放大长链推理能力

2025-09-16 15:03:28 752

原创 近期国内外AI大事

腾讯混元发布了最新生图模型‘混元图像2.1(HunyuanImage2.1)’,支持原生[2K分辨率]图像生成,具备强大的复杂语义理解和跨领域泛化能力,同时支持中英文输入和高质量文本生成。该模型已在Hugging Face和GitHub上开源,为视觉创作者提供了更高效的创作工具,并为未来[多模态图像生成]模型的研发奠定了基础。支持原生2K分辨率,提升图像生成质量与效率。具备强大的复杂语义理解能力,支持高质量的文本生成。开源模型已上线,开发者可基于其进行研究与开发。

2025-09-10 19:03:45 1057

原创 腾讯浑元最新技术:具有表征对齐的多模态扩散,用于高保真拟音音频生成

2025年8月28日,腾讯混元团队宣布开源端到端视频音效生成模型HunyuanVideo-Foley56。该模型能够依据输入的视频内容及文字描述,自动生成与画面高度同步的高品质音效,有效解决了AI生成视频缺乏同步音频的沉浸感问题。

2025-08-31 16:27:11 896

原创 商汤最新研究:GPT-5比其他所有模型都要强,但是相比人类还差得远

商汤科技与南洋理工联合研究发现,GPT-5在空间智能方面取得显著进展,在度量测量和空间关系任务上达到人类水平,但在心理重建、视角转换等核心能力上仍存在明显差距。研究构建了包含6大空间能力的评估体系,测试了8个基准数据集,消耗超十亿tokens。结果显示:1)GPT-5树立了新标杆;2)多模态模型在空间任务表现普遍弱于非空间任务;3)专有模型在最困难任务上未展现决定性优势。定性分析揭示,GPT-5能处理基本空间问题,但在折叠组装、复杂推理等需要心理模拟的任务上表现欠佳。该研究为理解AI空间智能现状提供了系统性

2025-08-25 10:00:46 989

原创 nvidia最新论文:小型语言模型是代理人工智能的未来

本文提出多数 agent 场景下可在消费设备上低延迟运行的 SLM 已足够且更经济,应该采用“SLM 优先、少量 LLM 补充”的异构架构(并给出 LLM→SLM 迁移算法),同时讨论了产业惯性等阻碍。

2025-08-20 15:07:48 1002

原创 缺陷检测最新综述:针对现实世界工业缺陷检测的综合调查:挑战、方法与展望

这篇综述聚焦于工业缺陷检测的重要性,指出在精度、自动化和可扩展性要求不断提升的背景下,传统检测方法已难以满足现实生产需求。论文系统回顾了基于2D(图像)和3D(点云/深度)两类模态的缺陷检测方法,重点剖析了从封闭集(closed-set)到开放集(open-set / anomaly detection)范式的演进及其原因。作者对现有方法进行了分类(包括监督式、无监督、半监督、零/少样本等子任务),并总结了主要技术路线(例如回归/重建、memory-bank、normalizing flows、discri

2025-08-18 19:58:49 1053

原创 利用多模态大型语言模型实现零样本异常检测与推理

摘要: Anomaly-OV创新性地将视觉推理能力引入零样本异常检测领域,通过构建多模态知识库和推理框架,实现对未知异常的精准识别。该方法突破了传统模型依赖已知异常数据的局限,增强了检测系统的泛化能力,为工业质检等场景提供了更智能的解决方案。文章详细解析了其技术原理、创新点及应用价值。

2025-08-14 14:49:18 1234

原创 AI浏览器 vs 传统搜索:技术代差与替代进程全景图

AI搜索已在效率与体验维度实现代际超越,但传统搜索凭借实时性与长尾覆盖维持不可替代性。2025年市场进入“双模共生”阶段,预计2030年AI搜索渗透率突破60%。

2025-08-13 14:10:17 1849

原创 Google AI 发布 MLE-STAR:一款能够自动执行各种 AI 任务的先进机器学习工程代理

Google Cloud研究人员开发的MLE-STAR系统通过搜索引导和定向优化实现了机器学习工程自动化。该系统采用双循环细化机制,外循环进行消融研究识别关键组件,内循环针对性优化,解决了传统方法依赖LLM记忆、迭代粗糙等问题。

2025-08-05 23:16:21 884

原创 Cohere发布Command A Vision视觉多模态模型,评分超过GPT4.1

Cohere发布开源视觉语言模型Command A Vision(112B参数),在多模态任务中表现卓越,超越GPT-4.1等主流模型。该模型基于Command A构建,采用SigLIP2视觉编码器和三阶段训练流程(对齐、微调、强化学习),在图表分析、文档OCR等企业场景中表现突出。支持低资源部署(2块A100或单张H100),提供Hugging Face和Cohere平台体验入口,赋能企业自动化视觉数据处理与决策分析。

2025-08-01 14:26:03 832

原创 Meta AI天团全解析 |,44位顶尖人才档案大公开!

今天给大家带来Meta(原Facebook)AI团队的最新人才盘点,整理自内部资料,信息量爆炸💥 一起来看看全球最强大脑都在研究什么吧!

2025-07-20 22:23:36 597

原创 1T参数突然开源!我用3090跑起Kimi K2

025 年 7 月 11 日深夜,Moonshot AI 正式发布并开源新一代基础大模型 Kimi K2。这是公司首次对外开源基座模型,也是业界首批可公开下载的 万亿参数混合专家(MoE) 架构大模型之一。K2 在代码生成、数学推理与通用 Agent 任务上刷新了开源模型 SOTA,并同步上线 Web、App 与兼容 OpenAI/Anthropic 的 Chat API,输出价格 16 元 / 百万 token

2025-07-13 09:46:44 1585

原创 Meta继挖走OpenAI 11名大将后,再以2亿薪酬吸引苹果AI团队负责人

Meta继挖走OpenAI 11名大将后,再以2亿薪酬吸引苹果AI团队负责人

2025-07-12 16:26:07 839

原创 微软AI医生来袭:MAI-DxO实现四倍于人类医生的诊断准确率

微软提出MAI-DxO:AI诊疗系统,由LLM模拟一组医生,提出可能的鉴别诊断,并策略性地选择高价值、高性价比的检测方法。与 OpenAI 的 o3 模型结合使用时,MAI-DxO 的诊断准确率可达 80%,是全科医生 20% 平均准确率的四倍。

2025-07-04 00:40:57 1327

原创 文本内容转卡片小工具推荐

本文介绍了8款将文字转化为精美卡片的实用工具,包括流光卡片、图文卡片生成器、MD2Card等。这些工具支持Markdown和富文本编辑,提供多样化的模板和背景,可一键生成适合社交媒体传播的视觉化内容。主要功能包括实时预览、无水印导出、API调用等,满足不同场景的内容营销需求。这些开源或在线的卡片生成工具,能有效提升文字内容的吸引力和传播力。

2025-06-24 11:06:00 1254

原创 2025CVPR最佳论文系列

IEEE计算机学会与计算机视觉基金会公布了2025年CVPR大会获奖名单。最佳论文授予牛津大学和Meta AI的VGGT模型,该Transformer网络能高效估算3D场景属性;最佳学生论文为多伦多大学等机构的神经逆向渲染系统。另有5篇论文获荣誉奖,涵盖动态视频处理、导航世界模型、开放视觉语言模型等前沿研究。AI艺术奖项表彰了3个跨界项目,包括神经网络潜在空间探索、微生物分解与AI的类比等创新作品。这些成果展示了计算机视觉领域在技术创新与艺术应用上的突破。

2025-06-15 19:42:26 1719

原创 Artificial Analysis2025年Q1人工智能发展六大趋势总结

2025年第一季度全球AI发展呈现六大趋势:1)前沿模型竞争白热化,中美企业领跑推理与非推理领域;2)MoE架构与硬件创新推动效率革命,推理成本显著下降;3)中国在开源和非推理模型领域快速崛起;4)AI代理实现端到端自主任务处理;5)多模态技术全面突破,视频生成形成中美"双寡头"格局;6)成本下降与算力需求激增的矛盾日益突出。未来,混合部署策略、地缘技术竞赛和伦理商业化平衡将成为关键议题。

2025-06-02 18:25:56 992

原创 每个 AI 工程师都应该了解的A2A、MCP和ACP

每个AI工程师都应该了解的 A2A、MCP 和 ACP,当今顶级人工智能协议如何帮助代理进行交流、思考和协作

2025-06-02 17:53:47 926

原创 超越OpenAI CodeX的软件工程智能体:Jules

谷歌I/O大会发布的产品Jules:软件工程智能体,OpenAI CodeX的竞品。能按需求写代码、改bug,关联Github仓库,在云端自动执行任务,不需要人工介入,只需要查看日志就能知道做了哪些任务。

2025-05-24 16:41:56 1297

原创 多类别异常检测新SOTA-MVMCAD

这篇论文提出了一种用于多视角多类别异常检测 (MVMCAD) 的模型,旨在解决现有模型在多视角场景下建模不同视角之间关系和互补信息不足的问题。该模型通过整合来自多个视角的信息来准确识别异常。

2025-05-19 20:03:24 1060

原创 多轮对话陷阱:为什么最强LLM依然会在交流中迷失方向

本论文研究大型语言模型 (LLMs) 在多轮、欠规格化 (underspecified) 对话中的表现。尽管用户在实际交互中经常给出欠规格化指令 [27],但 LLMs 的评估主要集中在单轮、完全规格化 (fully-specified) 的任务上。作者通过大规模模拟实验,对比了 LLMs 在单轮和多轮设置下的性能。实验发现,测试的所有顶级开源和闭源 LLMs 在多轮对话中的性能显著低于单轮设置,在六个生成任务上平均下降 39%。

2025-05-16 08:00:00 927

原创 首个专业AI设计Agent发布-Lovart

Lovart.ai 号称是全球首个 AI 设计 Agent,刚刚发布了 Beta 版本。据介绍,Lovart.ai 将「深度思考」的理念引入到了 AI 图像生成领域。用户只需描述需求,它会进逐步地推理和思考来分解和理解你的任务需求,然后调用合适的模型工具进行创作。而且在一个展开的画布中直接呈现,还能随时修改。

2025-05-14 23:23:02 4059

原创 大模型图像编辑那家强?

最近StepFun团队发布了最先进的图像编辑模型Step1X-Edit,其性能可与 GPT-4o 和 Gemini2 Flash 等闭源模型相媲美。更具体地说,他们采用多模态 LLM 来处理参考图像和用户的编辑指令。提取潜在嵌入并将其与扩散图像解码器集成以获取目标图像。在 GEdit-Bench 上的实验结果表明,Step1X-Edit 的性能大幅超越现有的开源基线,并接近领先的专有模型的性能,从而为图像编辑领域做出了重大贡献。

2025-04-27 23:56:58 1101

最新淘宝类目.zip

最新的全部淘宝类目分类数据MYSQL导出文件,涉及淘宝商品类目数据共831247条,数据结构完整,包含ID,PID,名称,拼音首字母,路径,ID路径等

2020-07-17

20年taobao搜索关键词及类目.zip

淘宝官方发布Top20万关键词,包括移动端,PC端的搜索数据,搜索关键词及对应的一级类目,二级类目,三级类目分类

2020-07-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除