量子位

追踪人工智能新趋势,报道科技行业新突破

  • 博客(10500)
  • 收藏
  • 关注

转载 「创业初期全靠人工」,AI笔记独角兽自曝了

无论是销售、项目管理、市场营销、运营,还是产品开发,Fireflies都通过捕捉知识、自动化重复性任务,以及在会议前、会议中、会议后全流程协助完成工作,彻底重塑团队的工作方式。一名自动化工程师补充说,这可不是简单的法律诉讼就能摆平的问题,关键在于,这种行为足以重创Fireflies的品牌形象。只是他恐怕没想到,这篇看似真诚的「小作文」,会在一夜之间,把公司、自己,以及创业伙伴,一并推上了风口浪尖。是的,如今AI笔记领域的佼佼者Fireflies,在真的有「智能」上线之前,是靠纯「人工」起家的。

2025-11-23 18:33:00 42

转载 杭州蚂蚁投了家腾讯系具身智能公司

开放场景的规模化部署才是真正检验机器人能力与工程化体系的时候,我们希望在接下来的几年里,让AI机器人真正进入现实世界,成为稳定可靠的新质生产力节点。在两位联创之外,星尘智能的其他成员在技术和商业领域同样拥有丰富的经验,背景横跨腾讯、谷歌、优必选、百度和华为等前沿科技公司。综上所述,绳驱机器人天生具备高拟人表现力、高动态响应和高交互安全等特性,尤其适合那些需要灵巧操作与人机协作的场景——比如,他们认为,绳驱模式能实现低摩擦、高跟随、连续力域的控制,不会像传统刚性传动那样在齿隙、摩擦或冲击中丢失关键力控信息。

2025-11-23 18:33:00 81

转载 卡帕西大模型横评方法太好玩了!四大AI匿名参赛评分,最强出乎意料

大模型一致认为最强、最有洞见的答案来自GPT-5.1,而Claude被公认为最弱,Gemini 3和Grok-4则排名位于中间。于是通过这个过程,就能直接对比不同模型,在处理同一个问题时的风格差异,而且能够直观地看到模型之间互相评价的过程。LLM委员会将指定一名主席,将所有模型的回复汇总,并形成一个最终的答案,再转交给用户。然后在同一问题下逐个收集它们的回复,并以标签视图的形式展示,以便用户进行检查。PS:在GitHub上也收获了1.8k Stars。此外,令人出乎意料的是,模型几乎很少出现明显的偏见,

2025-11-23 12:05:38 25

原创 AI把PC天花板打破了

过去半年里,天禧AI不断迭代到目前最新的3.5版本,完成了从“设备AI”到“个人AI”的转变,具备生成式UI、个人大脑、生态技能与可信安全四大模块,这意味着天禧AI能更好地理解和服务“你”这一个体。联想已经进入到一个结构更优、质量更高、确定性更强的新增长周期——这不仅是一家公司自己的成长周期,也是PC行业的发展周期,更是AI技术与硬件产业深度融合的周期。在研发投入方面,联想持续加码创新。一家以传统硬件出身的公司,在AI时代给出了这样的新答卷,如果再用过去的方式去理解PC、理解联想,似乎已不适配。

2025-11-23 12:05:38 651

转载 沈向洋解读AI演进五大维度!IDEA研究院发布“万物可抓取”模型,GPU渲染器打破国外垄断

从人类数据枯竭到合成数据兴起,再到AI主动探索并获取实验数据,这背后体现出数据从限制模型能力的约束,逐步转变为推动AI主动学习的工具。这个模型不仅能够精准识别物体、预测抓取点位,还可以结合深度信息,还原物体的三维结构,从而指导机械臂完成稳定、精确的操作。现场展示的视频中,DINO-X Grasp驱动的机器人灵活应对各种形状各异的物品,从食品包装袋到异形障碍物,一抓一个准。于是,性能、成本与能效成了大家追逐的新的平衡点,推理、端侧、强化学习等匹配不同应用任务的专用芯片纷纷涌现。

2025-11-23 09:00:00 129

转载 AI问答,直接「拍」给你看!来自快手可灵&香港城市大学

Joint-GRPO成功地将VLM的语义推理与VDM的视觉生成在细粒度动作层面进行了对齐,使得模型不再是生成模糊的「概念视频」,而是精确的「操作指南」。这充分证明,通过Joint-GRPO实现的专业化分工与协同优化,有效解决了统一模型在「理解」与「生成」能力上的权衡困境,实现了两者性能的同步飞跃。,或即使预测对了「加入芝士」这一动作,在可视化时也可能表现为「倾倒液状芝士」或「放置整片芝士」,与真实烹饪场景中「撒下碎芝士」的细粒度动作不符。他们提出了一个全新的任务范式——「视频作为答案」,并发布了相应模型。

2025-11-22 11:04:28 27

转载 首位“80后”院士,来自北大数院

此前,他亦曾与朱歆文合作,利用他本人与Kedlaya合作发展的p进分析技术,对p进光滑刚性簇上的任意局部系统建立了Simpson函子,突破了Faltings工作中的small条件,并建立了黎曼希尔伯特函子。这是一群2000年前后进入燕园、踏上数学研究道路的数学新星,包括1999级的刘若川,2000级的袁新意、李驰,2001级的鲁健锋、马宗明、肖梁,2002级的王博潼、宋诗畅,2003年的刘一峰等等。刘若川认为,好的科学研究需要好的场域,而一个好场域由好的科研理念、风气,以及多元的、优秀的科学家组成。

2025-11-22 11:04:28 40

转载 国产AI拿下国际物理奥赛金牌,13项顶级竞赛豪取12金1银,划重点:开源

随后,解答将交由Review Studio进行双阶段审查,Physics-Verifier负责检查物理一致性,General-Verifier则进一步检查逻辑、推理过程和计算细节。由于推理往往通过vLLM或SGLang等专门推理引擎进行,而训练则在Megatron或FSDP框架中完成,二者的浮点实现存在微小差异,模型在训练中看到的“旧策略”与真实采样策略并非完全一致。,包括IPhO、APhO、EuPhO这样的国际赛事,以及NBPhO、PanPhO、F=MA等区域性高难赛事。

2025-11-22 11:04:28 58

转载 ChatGPT开始搞社交了

从GPT-5.1(情商高)到这次的群聊功能上线,既没有直击用户核心痛点的革新,也缺乏让人眼前一亮的技术突破,更像是为了 “刷存在感” 而匆忙推出的补充项。中肯地说,上新功能本身无可厚非,但对照谷歌近期Gemini系列的火爆出圈,OpenAI这段时间的更新节奏,总透着一股 “慌慌张张、连滚带爬” 的仓促感。需要注意的是,只有当GPT发言时才会触发计费,费用将计入GPT所回复的那位用户名下,群成员之间的聊天不计费。不过,话说回来,加了AI的群聊可能还真有点不一样,它没准会把你和它的私聊内容抖出去,逗群友一笑。

2025-11-21 17:00:00 54

原创 对话范浩强:10亿融资之前,我们手搓了5000元“丐版硬件”

时间回到一年前,他在跑业务的过程中惊讶发现,减速器国产了,光栅国产了,很多原来必须靠进口的零部件,现在国产可用了。”说到周而进,范浩强眉飞色舞,“他的思维方式、做事风格,包括对复杂系统的理解,都已经非常适配AI 2.0这个阶段。讲道理,这波大模型和具身智能热潮,和2015年前后的AI 1.0浪潮有着惊人的相似度——热闹、狂奔、巨额融资,到处奔驰着对技术奇点的想象。带着这种预设,原力灵机怀抱着长期的信心,和短期的耐心,“这和现在很多公司追求成立三年就上市、一年就被收购的节奏,是截然不同的”。

2025-11-21 17:00:00 805

转载 4K超分Agent修图师来了!一键救活所有模糊照片

4KAgent在11种不同的图像超分辨率任务上的26个基准测试集进行了广泛测试,包含经典图像超分辨率、真实世界图像超分辨率、多重退化图像复原、大尺度图像超分辨率。,4KAgent把“分析、决策”与“执行、反思”分工到不同的智能体,并通过配置模块灵活地适应不同的复原需求,实现了通用的4K超分能力。:检测并裁剪出输入图像中的人脸,对于每张人脸,4KAgent应用不同的人脸修复方法得到多个修复结果,并基于设计的人脸质量评分Q。例如,树皮上的细密条纹,鹿角的结构,羽绒服的纹理,以及数字的清晰度。

2025-11-21 14:27:03 32

转载 振臂一挥,大半个具身机器人圈都来了!智源研究院:别藏了,谁贡献数据多,谁的大脑就更好用

未来的评测将是可量化、可观测、可追溯的,不管你是哪家的模型,不管你是什么形态的机器人,拉出来遛遛。在现场,智源研究院院长王仲远向厂商们抛出了一个极具诱惑力、又无法拒绝的邀请:“谁家数据贡献得多,将来训练出来的具身大脑在谁家的机器人上就会更好用。能把这些平时在市场上“刺刀见红”的竞争对手聚在一张桌子上,甚至让他们愿意把最核心的“数据资产”拿出来共享,背后攒局的人,正是。在与王仲远的深度交流中,我们发现,这位“带头大哥”正在下一盘大棋:他不想做机器人的“苹果”,他想做具身智能时代的“安卓”

2025-11-21 14:27:03 61

转载 太炸裂了!全网实测Nano Banana Pro,网友:这模型里到底装了什么鬼东西!

它拥有最先进的图像生成和编辑功能,具备更高级的世界知识、文本渲染、精度和控制能力。你瞧,如果把Nano Banana Pro放到一些脑洞大开、拥有各种奇思妙想的网友手中,那才叫一个玩出花了。给一张人物参考图,Nano Banana Pro仅需1分钟就生成了带故事情节的条漫,制作水平令网友直呼可怕。大概要求是,生成一辆自行车车架及组件的爆炸视图,拥有已拆卸的齿轮和链条,以毫米为单位进行尺寸标注等。,整合了Gemini 3 Pro的多模态理解能力以及谷歌搜索的知识库,能理解现实语义与物理逻辑。

2025-11-21 14:27:03 208

转载 抢先报名!MEET2026最新嘉宾阵容官宣,一起热聊AI

刘凡平,毕业于中国科学技术大学,上海市科技专家库专家,曾出版人工智能领域著作4本,发表多篇人工智能领域论文,人工智能技术相关专利20余项,涵盖基础算法研究到大模型架构设计。韩旭于2017年创立文远知行,带领公司在全球11国超30城开展自动驾驶研发、测试和运营,2024年率公司成功登陆纳斯达克,成为“全球通用自动驾驶第一股”、“全球Robotaxi第一股”,2025年率公司成功登陆香港交易所,成为“港股Robotaxi第一股”。他的研究涵盖行为金融学、中国宏观经济、金融市场、卖空、破产重组及公司并购等领域。

2025-11-21 14:27:03 319

转载 周志华,院士!

工程院公告:https://www.cae.cn/cae/html/main/col245/2025-11/21/20251121085534729719452_1.html。2024年7月31日,南京大学官网“现任领导”栏目更新信息显示,周志华已任该校副校长。2003年,也就是30岁时,周志华获得国家杰出青年科学基金资助,同年被聘为教授。与此同时,中国科学院新增外籍院士27人,中国工程院新增外籍院士24人。周志华,江苏盐城人,1973年出生,现年52周岁。诸多头衔,离不开周志华在AI领域的造诣和成就。

2025-11-21 10:23:21 104

转载 14万,家务机器人带回家!斯坦福华人博士具身创业首款产品亮相

Memo身高1米7,体重170磅,约77.1公斤,水平臂展0.8m,升降柱垂直可达2.1m,是个妥妥的全尺寸人形机器人。而且,它只会执行人教给他做的任务,对于想要自己动手让Memo更聪明的用户,也可以进一步的申请训练资格。除了一开头视频中的收拾桌面,叠袜子,做咖啡,Memo还能帮你叠衣服,哪怕衣服被扔到头上也能继续。而且,Memo采用触感柔软的硅胶外壳,没有尖锐的边角,可以用任何家用清洁产品擦拭,时刻保持干净。为了保证家用的安全性,Memo如果受到碰撞,会自动复位,即使在任何配置下断电,也能保持稳定。

2025-11-21 00:01:00 91

转载 Nano Banana Pro上线!集成Gemini 3与Veo 3,谷歌不给竞争对手喘息机会

对于普通用户,模型将、通过多个渠道提供。模型不仅理解图像内容,还能理解文字的语义上下文,这让它能够在保持原始艺术风格和布局的同时,准确地进行语言转换。此外还在Nano Banana基础上强化了文本渲染,结合多模态理解能力,可以直接把图片中的英文文字翻译成韩文、中文或其他语言,同时保持原有的设计风格不变。比如你要制作一份关于印度奶茶的食谱图解,模型不仅能生成美观的步骤图,还能确保配料比例和制作步骤的准确性。首先是文字渲染能力的大幅提升,不仅能在图像中准确生成清晰可读的文字、艺术字,还支持多种语言的直接渲染。

2025-11-21 00:01:00 116

转载 14万一台家务机器人!斯坦福华人博士具身创业首款产品亮相,用户还能买回去自己教

Memo身高1米7,体重170磅,约77.1公斤,水平臂展0.8m,升降柱垂直可达2.1m,是个妥妥的全尺寸人形机器人。而且,它只会执行人教给他做的任务,对于想要自己动手让Memo更聪明的用户,也可以进一步的申请训练资格。除了一开头视频中的收拾桌面,叠袜子,做咖啡,Memo还能帮你叠衣服,哪怕衣服被扔到头上也能继续。而且,Memo采用触感柔软的硅胶外壳,没有尖锐的边角,可以用任何家用清洁产品擦拭,时刻保持干净。为了保证家用的安全性,Memo如果受到碰撞,会自动复位,即使在任何配置下断电,也能保持稳定。

2025-11-20 17:01:00 62

转载 狙击Gemini 3!OpenAI发布GPT-5.1-Codex-Max

上面数据说明,在这种情况下,GPT-5-Codex-Max有50%的概率能够成功完成一项原本需要人类2小时42分钟完成的软件工程任务。目前,GPT-5.1-Codex-Max已在Codex中支持与CLI、IDE扩展、云端和代码审查工具结合使用,API接口很快也会上线。新模型任务效率也更高。于是,奥特曼昨天刚夸完Gemini 3,今天又赶来给自家GPT-5.1-Codex-Max站台,咱说这也太忙了(doge)。具体来说,在接近上下文窗口限制时,模型会自动压缩对话,获得新上下文窗口然后继续任务,直到完成。

2025-11-20 15:01:00 61

转载 Meta「分割一切」进入3D时代!图像分割结果直出3D,有遮挡也能复原

该模块引入了一个可学习的全局存在Token,专门负责预测目标概念在当前图像中出现的概率,而原本的对象查询则专注于在假设目标存在的前提下计算局部匹配概率,最终的置信度得分为两者的乘积。为了处理新出现的物体,系统使用一种匹配函数,基于IoU等指标将追踪器预测的掩码与检测器在当前帧新发现的对象进行关联和更新,从而实现跨帧的身份保持与新目标的自动捕获。在视频处理方面,SAM 3继承并扩展了SAM 2的记忆机制,即通过追踪器利用记忆库存储过去帧的空间特征,将上一帧的掩码传播到当前帧。

2025-11-20 15:01:00 79

转载 英伟达炸裂业绩打飞“AI泡沫”,黄仁勋:云端GPU卖光了

但与单纯卖卡的Hopper逻辑不同的是,Blackwell属于典型的系统集成型业务:覆盖机架、供电、散热、布线、测试、部署等完整环节,价值链中包含大量低毛利硬件与工程服务。除了三季度业绩超预期外,更关键的是英伟达对第四季度给出了极为乐观的业绩指引,预计营收将达到650亿美元(上下浮动2%),远高于分析师平均预测的616.6亿至621亿美元。最后就是AI公司之间“循环投资”引发的争议,也就是英伟达向AI公司投资,这些公司再用融资回头购买其GPU,形成一种夸大需求的循环收入模式,业绩向好里面也可能存在水分。

2025-11-20 12:01:43 33

转载 反超Gemini 3!马斯克放出Grok4.1快速推理版,还曝出了新一轮150亿美元融资

据华尔街日报透露,相关融资细节是由马斯克的财富经理Jared Birchall曝出的,但目前尚不清楚2300亿美元是投前还是投后估值,以及也没有说明资金用途。xAI以全股票交易的方式收购了X(推特),此次交易中xAI的估值为800亿美元,对X的估值为330亿美元(450亿美元资产减去120亿美元债务)。,xAI在B轮融资中筹集了大约60亿美元,并且半年之后就又进行了60亿美元的C轮融资,投后总估值来到500亿美元。从上次到这次,xAI曝出的融资都是150亿美元,估值也都差不多,其真实性目前确实大打问号。

2025-11-20 12:01:43 67

转载 网友疯玩Gemini 3!AI造物门槛真是0了

平时找不到好用又免费的各种小工具,这下也能直接生成了,告别付费、水印、VIP。,完全3D可交互,具备动态反射与波浪效果,并可点击任意位置将柠檬投入水中。所以这是不是说,不管是线上面试还是做汇报都不用担心卡壳了(doge)。现在,完全由AI搭建的“4399小游戏”网,正在迅速扩容中。从创意互动到经典益智,Gemini 3 Pro几乎无所不能。就怎么说呢,和刷短视频时突然蹦出来的上头小游戏有的一拼了。除了纯文本生成, “一张图造应用”也成为网友热衷的玩法。看了这么多脑洞大开的玩法,你是不是也跃跃欲试了?

2025-11-20 12:01:43 129

原创 芯片就像重庆,英特尔说的

IO与内存:数据传输是AI训练的瓶颈。高嵩敏锐地指出了边缘计算的四个新特点:生成式AI的大规模部署、多模态数据的处理需求、AI与控制的融合(将机器人的“大脑”与“小脑”集成)、以及行业智能体助手的涌现。从DeepSeek的深度推理,到通义千问的广博知识,再到ModelBest的小模型优化,英特尔通过底层的指令集优化和量化技术,帮助这些国产模型在端侧安家落户。RibbonFET全环绕栅极晶体管技术:通过四面包裹的方式控制电流,实现了更精准的开关控制和更低的漏电,解决了晶体管微缩带来的电流控制难题。

2025-11-20 12:01:43 626

转载 朱啸虎投的第一个AI硬件公司,又完成一轮融资

我们公司叫做Gyges Labs,”邓旭东回到了起点,“这个名字来自于柏拉图理想国里面的一个传说,有一个叫盖吉斯的年轻人,捡了一个戒指,转一下之后发现能够变隐身……市面上的智能眼镜,无论是追求大屏影音体验的,还是主打拍摄功能的,都或多或少地在眼镜的本体属性上做了妥协——它们太重、太突兀、太“智能”,以至于无法真正融入日常生活。而穿戴式设备,如眼镜和戒指,能够真正“感知我的感知,然后24小时的陪伴”“与其一步登天要把所有功能做齐,”邓旭东说,“不如基于语音,基于周边的声音感知,先把这个维度的AI功能做好。

2025-11-20 08:30:00 28

转载 “最强具身VLA大模型”,究竟强在哪儿?

在最难的任务(如折叠多样化衣物和制作咖啡)中,RECAP将任务的吞吐量(每小时成功次数)提高了一倍以上,相比于仅进行监督微调(SFT)的模型,RECAP将任务失败率降低了约2倍。计算优势(advantage):用动作的实际回报减去价值函数预测,得到优势值,并二值化形成高/低优势指标,作为策略训练的额外输入,引导模型选择更优动作。综上,Recap不仅让机器人学会了执行任务,更重要的是,它让机器人学会了自我纠正和优化策略,为后续复杂任务的鲁棒性和效率提升提供了可扩展的解决方案。掉进坏格子里,价值降低。

2025-11-20 08:30:00 65

转载 三行代码就能手搓一个AI应用!蚂蚁OceanBase开源其首款AI数据库

据介绍,seekdb最低仅需1核CPU、2GB内存,支持pip install一键安装、秒级启动,兼容嵌入式与客户端/服务器双部署模式,可轻松集成至智能Agent、开发工具链或本地应用,大幅降低AI应用的工程门槛。例如,在反欺诈场景中,可直接查询“近7天交易超5万元、位置异常且行为类似历史欺诈样本”,无需跨系统调用,兼顾性能与安全。过去在做交易和分析时,行业主要关注数据库中的查询以及数据分析等功能,但在AI应用场景下,除了交易和分析功能外,更需要对不同类型和模块的数据进行混合检索和综合利用。

2025-11-19 17:01:00 64

转载 何恺明团队新作:扩散模型可能被用错了

这就导致了一个核心矛盾,在处理高维数据时,例如将图像切分为16x16甚至32x32的大Patch,要求神经网络去拟合无规律的高维噪声,需要极大的模型容量来保留所有信息,这很容易导致模型训练崩溃。而相反呢,如果让网络直接预测干净的图像,本质上就是让网络学习如何将噪点投影回低维流形,这对于网络容量的要求要低得多,也更符合神经网络“过滤噪声、保留信号”的原本设计。它是弥漫在整个3D房间里的雪花点,不在屏幕上;如果你熟悉何恺明的作品,会发现这正是他创新的典型路径,不提出更复杂的架构,而是把问题拆回最初的样子,

2025-11-19 17:01:00 191

转载 文献、报告、合同翻译的老大难被国产工具治了?三大翻译神器横评后,这家稳得离谱

因为很多时候,论文里信息量最大的恰恰不是正文,而是那些藏在图表里的关键数据,以前只能自己硬啃:边查边猜、对照翻词典,翻译工具基本帮不上忙,赶不上ddl真的不是没道理的…对赶论文的毕业生、啃外文的科研人、做报告的职场人来说,好用的翻译工具,关键从来不只是“翻得了”,而是能不能陪你把整件事做完、做好、做省力。有时候翻译结果出来一大坨,全是密密麻麻的小字,文档格式全乱了,标题没了,加粗丢了,表格格式花了,想二次编辑都难。

2025-11-19 14:17:27 45

转载 “日本版OpenAI”创下估值新高!Transformer八子之一创办,老黄也投了

在Youtube做软件工程师的三年期间,他对人工智能产生兴趣,于是自学了Coursera的机器学习课程,并终于在2015年的时候加入谷歌研究院,担任里面的高级软件工程师。第一次是他刚毕业找工作时,虽然投了谷歌伦敦软件工程师的简历,并通过了两轮电话面试,但最终相比谷歌,他选择了位于英国的CAD/CAM软件公司Delcam。,带来旨在让教师模型学会“启发式”教学的新方法,使用新方法训练出的7B小模型,在传授推理技能方面,比671B的DeepSeek-R1还要有效;就像大自然中的鱼会基于某种简单的规则成群活动。

2025-11-19 14:17:27 43

转载 无需重训练+即插即用+性能零损耗,蚂蚁集团×南洋理工首发微调安全框架,让模型既安全又高效

在每个微调模型上都“重新学习”一遍安全,而是可以将“安全”作为一种独立的知识模块,从一个已对齐的模型中“提取”出来,再“注入”到另一个模型中。这种“智能合并”机制确保了安全补丁仅在“非冲突”区域生效,从而在修补安全漏洞的同时,最大限度地保留了下游任务的原始性能。具体来说,就是如何从庞大的模型参数中,“纯净”地提取出只代表“安全”的知识向量,而不与“常识”或“任务”知识混杂?席卷而来的浪潮和模型定制化的必然趋势,EnchTable为AI平台时代的模型安全提供了可落地的技术方案,尤其适用于。

2025-11-19 14:17:27 53

转载 融资数亿、营收过亿!黄仁勋频频关注的具身赛道隐形冠军浮出水面

如AI教母李飞飞在其广受关注的长文《From Words to Worlds》中所指出的那样:人类理解世界,不仅仅看到眼前的东西,还要理解它们在空间上的关系、语义上的意义,以及现实中的重要性。而同样受关注的是它合作的客户,既有英伟达、谷歌、阿里、字节,也有Figure AI、1X Technology、智元机器人、银河通用,还有Toyota,BOSCH、比亚迪、吉利……这也是光轮智能区别于上一代数据供应商的本质区别,提供的不只是数据,而是数据全流程、全周期的服务,数据飞轮,端到端闭环。

2025-11-19 14:17:27 189

转载 周靖人署名,通义实验室开源智能体自进化系统:让模型学会“自我反思”,14B也能越级打怪

这种进化不仅体现在分数的增长,更带来了“越级挑战”的效果,经过强化后的14B模型,在特定任务上的表现已经超越了未经过同类优化的32B乃至更大参数量的模型(如Qwen2.5-32B)。针对长程任务中Token消耗大、记忆管理难的痛点,系统还引入了上下文管理器,在保证推理连贯性的同时,有效控制了显存开销,并支持从滑动窗口到自主记忆管理的多种策略。在更小参数量的7B模型上的提升也同样显著,平均完成率从15.8%跃升至45.2%,证明了该框架对不同规模模型的普适性增强能力。

2025-11-19 13:01:36 43

转载 Gemini 3打服奥特曼马斯克,谷歌CEO却在担心AI泡沫

根据OpenAI今年10月完成的一项特殊交易——员工股份二级转售,其估值被推高至5000亿美元,较今年3月软银领投融资时的3000亿美元估值增长了近67%。这边,截至9月30日,这家公司包括数据中心在内的资本支出总额为349亿美元,既高于分析师预期的数字,也高于上一季度的240亿美元。当然,说归说闹归闹,鉴于当下AI正受到史无前例的密切关注,所以这位科技巨头CEO对AI的看法无疑也值得我们了解学习一番。,其2025年的资本支出将在700亿美元~720亿美元之间,高于此前估计的660亿美元~720亿美元。

2025-11-19 13:01:36 48

转载 谷歌Gemini 3把GPT-5.1打成计量单位!马斯克奥特曼都服了

从今天起,谷歌宣布“以整个公司的体量”发布Gemini 3系列模型,包括首次在发布当天就将Gemini整合进搜索,上线独立APP,还推出全新的智能体开发平台。在智能体任务上,Gemini 3 Pro不光擅长编程,还强化了现实生活任务的长期规划能力,模拟管理自动售货机一年赚了5000美元,取得所有模型中最高的收入。现在的3代更是能力的集大成者,不是简单堆料,而是深度融合,多模态、推理、Agent能力这些特性一起进化,主打“你敢想,我实现”。

2025-11-19 09:25:05 100

转载 谷歌抢跑L3级AI,Gemini连续工作40分钟,Agent自动生成评审百条创意

如此一来,用户不必再面对AI的草稿式输出,只需像筛选成熟方案一样,从智能体打磨后的结果中直接挑选即可,大幅减少了与单个Agent来回磨合的时间。此外,为了方便系统确认需求和节省算力,系统在正式运转前会先给出一份“计划评估项目和创意维度”的概要,只有用户确认后才开始执行任务。事实上,谷歌早在今年2月就发布过科研辅助类的Agent,但与这次内测的能力相比,功能规模和表现都不是一个量级。据悉,这种“先由点子生成器想方案,再由评审团进行竞赛式打分”的多智能体系统,在面向用户的产品中还是。

2025-11-19 09:25:05 129

转载 2025年度AI落地案例征集|量子位智库

2024年起,「报告」聚焦于提名正在释放巨大潜力的AI十大趋势,我们关注到新型架构与推理能力的变化、世界模型和空间智能的发展、多模态和Agent在应用领域的表现……而今年,我们期待有更多科技伙伴参与到这份报告的撰写中,从科研、投资、创业、转化等不同角度,共同传递对于AI领域的信心、洞察、判断与预测,和我们一同帮助更多技术与机构在聚光灯下展现价值、集聚资源、改变未来。AI时代的变化日新月异,却仍有迹可循,需要我们选准落地领域、准确洞察时间点,把握成果转化和产业变革的风向。微信:CarolineZheng_

2025-11-18 17:00:00 241

转载 30秒,我用蚂蚁灵光复刻了个支付宝(doge)

可以说,蚂蚁在AGI上的战略已然清晰明了,那就是依托自己的金融场景优势,转型为AI驱动型科技公司,并从大模型、多模态、具身智能全方面一起发力。首先二者的底层模型就不一样,千问用的是阿里自家的Qwen模型,而灵光搭载的模型虽然还没有明确透露,但预估和其自研的百灵大模型脱不了关系。先来试一下灵光对话,官方给出的title是“化繁为简”,也就是说再复杂的问题,到这儿都能给出最一目了然的答案。最下面还有小猫的成长日志。最让人惊喜的是,不同于一般AI生成的文字包轰炸,灵光的答案排版非常漂亮,还用了卡片设计标注重点。

2025-11-18 17:00:00 1427

转载 AI视频进入“加速度”时代:30%加速+细节随手P,等等党和抽卡党都有救了!

一个细节的错位、一个画面的跳帧都可能让全片重来,角色不稳要返工,元素乱跳要重生,提示词不准又得重新roll,专业团队焦虑,普通用户更无从下手,明明是小改动,时间精力的投入成本却很大。更重要的是,那些平时不太被注意、却跟日常生活贴得很紧的小需求,也能被看到、被重视、被满足,AI也不再高高在上,而是开始贴着我们的日常需求去跑,贴着每一个细微的小动作去做。最关键的是,速度提上来了,效果也没掉链子,动作细节和风格依旧在线,对内容创作者来说,这种“赶得上点”的生成速度,才是真正能用起来的节奏。

2025-11-18 14:00:00 45

转载 谢赛宁盛赞字节Seed新研究!单Transformer搞定任意视图3D重建

它是基于预训练的DINO视觉Transformer,通过Within-view self attn单视角自注意力、Cross-view self attn跨视角自注意力两种注意力机制,让模型能在单图、多图、视频等不同输入形式下,自动打通视角间的信息关联。能从一张图、一组多视角照片甚至一段随手拍的视频里,精准算出物体深度、还原相机位置,不仅能拼出完整3D场景,还能脑补出没拍过的新视角图像。甚至给几张同一场景的散图,它也能通过视角补全,生成未拍摄角度的图像,这在虚拟漫游、数字孪生等场景中潜力不小。

2025-11-18 12:59:06 47

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除