
人工智能
文章平均质量分 88
yt9364
这个作者很懒,什么都没留下…
展开
-
RTX5090震撼发布,国行16499元起,黄仁勋「美国队长」pose亮翻全场
基于 Transformer 的 DLSS 光线重建和超分辨率模型使用 2 倍以上的参数和 4 倍以上的算力,以在游戏场景中提供更高的稳定性、更好的重影、更高的细节和增强的抗锯齿效果。目前,整个物理 AI 行业的先驱都在使用 Cosmos,比如 AI 和人形机器人公司 1X 使用 Cosmos Tokenizer 推出了 1X 世界模型挑战赛数据集,另一家以自动驾驶汽车为起点为世界提供生成式 AI 的先驱 Waabi 在自动驾驶软件开发和仿真的数据管理环境中评估 Cosmos。原创 2025-01-08 16:55:35 · 673 阅读 · 0 评论 -
简化芯片设计传统,AI训练的新型算法正改变芯片研发范式
为了了解 Parsac 在更真实的设计中的表现,团队在 基准 测试问题中添加了自己的约束,包括关于块放置和分组的规定。令人高兴的是,Parsac 在不到 15 分钟的时间内成功解决了拥有商业规模的高级布局 规划 问题,使其成为同类产品中已知最快的布局 规划 器。相比之下,估计有 10 的 24 次方个宇宙中的星星的总量。事实上,来自 英特尔 AI 实验室的团队最近尝试开发一种基于 AI 的解决方案来处理一项称为布局 规划 的棘手设计任务,但在此之中他们找到了一个基于非 AI 方法的更成功的工具。原创 2025-01-08 16:54:33 · 1277 阅读 · 0 评论 -
高质量3D生成最有希望的一集?GaussianCube在三维生成中全面超越NeRF
更为关键的是,鉴于先前研究中的发现,扩散模型在处理高维数据分布时表现不佳,本文提出的 GaussianCube 在保持高质量重建的同时,显著减少了所需的 参数 量,极大地缓解了扩散模型在分布建模上的压力,为 3D 生成建模领域带来了显著的建模能力和效率提升。更为关键的是,本文提出的新型拟合算法极大地增强了表示的紧凑性,在 3D 表示拟合质量相似的情况下所需的 参数 量仅是传统结构化表示所需 参数 量的十分之一或百分之一。本文的方法可以极大程度上保留输入肖像的身份特征信息,并且提供细致的发型、服装建模。原创 2025-01-06 11:42:12 · 1283 阅读 · 0 评论 -
吴恩达团队新作:多模态多样本上下文学习,无需微调快速适应新任务
研究结果表明,多样本上下文学习能够显著提高多模态基础模型的表现,尤其是 Gemini 1.5 Pro 模型在多个数据集上表现出持续的性能提升,使其能够更有效地适应新任务和新领域,而无需传统的微调。然而,受限于基础模型的上下文长度,尤其是对于需要大量视觉 token 来表示图片的多模态基础模型,已有的相关研究只局限于在上下文中提供少量样本。通过对多个领域和任务的数据集进行测试,团队验证了多样本上下文学习在提高模型性能方面的显著效果,并探讨了批量 查询 对性能和成本及延迟的影响。原创 2025-01-06 11:40:37 · 968 阅读 · 0 评论 -
阿里云与零一万物达成战略合作,成立“产业大模型联合实验室” ,加速落地应用
据悉,双方深度战略合作的产业大模型联合实验室包含技术、业务、人才等板块,阿里和零一万物将结合两个团队全球顶尖的大模型研发实力,形成从下一代基座模型技术探索到产业落地大模型服务的组合拳,全面通过阿里云百炼大模型平台的模型服务层面向市场,针对 ToB 行业打造更强更全面的大模型解决方案,加速大模型穿透千行百业。近期,阿里云和大模型头部企业零一万物达成模型平台业务的战略合作,双方将成立“产业大模型联合实验室”,联手加速大模型从技术到应用的落地,进一步扩大产业大模型的生态整合。原创 2025-01-05 11:54:20 · 300 阅读 · 0 评论 -
昆仑万维周亚辉:人形机器人时代,中国新首富就在这三个人当中
那个时候,举例来说,一个负责任的发达大国里,假如有 1 亿人口,18-65 岁人口占到 60%,这是劳动力人口,劳动力人口里面将会有一半以上的人不再工作而在家待业状态,这些人将由政府发放生活费,假如人均 GDP 是 1 万美金,算到每个劳动力人口的人均 GDP 是大致 1.8 万美金,这些待业人口政府将会发放相当于年薪 6000 美金的生活费,工作人群的年薪大致会在 3 万美金左右,税后在 2 万美金左右,比现在的年薪要高,因为是工作质量高的更高端人群留下来工作了。当然企业的战略也是动态调整变化的。原创 2025-01-05 11:53:07 · 1355 阅读 · 0 评论 -
AAAI 2025 | 多模态大语言模型空间智能新探索:仅需单张图片或一句话,就可以精准生成3D建模代码啦!
我们把关键的 3D、2D 建模参数定义为大语言模型可以理解的建模语言,便于大模型理解和生成。近期,来自上海交通大学的 i-WiN 研究团队提出了专门用于 CAD 建模的多模态大语言模型 CAD-GPT,结合专门设计的 3D 建模空间定位机制,将 3D 参数映射到 1D 语言信息维度,提高了 MLLM 的空间推理能力,实现了基于单张图片或一句话描述的精准 CAD 建模构造序列生成。如图所示,添加定位机制后,CAD-GPT 可以精准的推理空间角度、位置变化,以及生成准确的 2D 草图。原创 2025-01-05 11:51:54 · 785 阅读 · 0 评论 -
NVIDIA 与 Deepcell 合作,加速生成式 AI 在单细胞研究中的应用
Deepcell 与 NVIDIA 合作,拥有独特的优势,可以利用其技术优势,提供能够最佳地利用最先进的架构和算法以及多模态和多组学数据集的 AI 模型,从而增强新颖的生物学见解的生成。Deepcell 的平台利用其 AI 模型,即人类基础模型,根据形态差异来识别和分类细胞,有助于推动基础和转化研究,并提供诊断测试和治疗靶向方面的未来应用。此次联合合作旨在增进对细胞形态的理解,并最终加速 AI 驱动的细胞分析在细胞生物学和转化研究中的广泛应用,包括癌症、干细胞和细胞治疗。原创 2025-01-02 20:29:42 · 1108 阅读 · 0 评论 -
悉尼大学和香港D24H的研究人员,开发用于亚细胞空间转录组数据分割的自监督学习方法
随着基准测试研究获得认可,由于软件版本控制和不同操作系统的挑战,它们可能会非常耗时,并且不同的方法可能需要不同程度的易用性和调整代码进行比较的时间。BIDCell 通过其集成损失函数进行创新,注入细胞形态和表达的生物学知识,使模型能够从给定的空间转录组和 DAPI 图像中进行自学习,并与以前的方法相比产生卓越的视觉和定量性能。悉尼大学和 D24H 的研究人员提出了一种基于生物信息深度学习的细胞分割(BIDCell)框架,该框架通过框架和学习策略的关键创新解决了SST图像中细胞体分割的挑战。原创 2025-01-02 20:28:34 · 850 阅读 · 0 评论 -
从撸猫、打工到马拉松,2024最强国产机器人图鉴来了!
55 个全主动自由度,让四肢活动范围能进一步提升,单腿 6 个自由度,单臂 7 个自由度,腰、颈各有 3 个和 2 个自由度,步态自然,更有单手 12 个主动自由度全驱动的灵巧手,灵活多变。其小跑速度大于 2m/s,拥有广阔的关节运动空间,23 至 43 个关节,最大关节扭矩达到 120N.m,可进行高难度的动态动作,如动态站起、坐下折叠、舞棍等。相较于第一代,GR-2 身高体重都有了升级,身高达到 175cm,体重 63kg,全身共有 53 个自由度,单臂运动负载达 3kg,能够完成更复杂的操作。原创 2025-01-02 20:27:29 · 945 阅读 · 0 评论 -
Ilya布局末日倒计时?奥特曼与谷歌大佬揭秘2025年ASI降临时间表!
如今,我们仍会迎来AGI,但4年前大家普遍认为它会成为一个历史性的转折点,但如今AGI的诞生可能更像是一次普通的产品发布,而在短期内,市场上会涌现出许多迭代和类似的选择。Bryk称自己一直幻想的科幻世界真的要来了,并列出了十年内AI可能实现的突破性进展,其中就包括炫酷的物理学发现,机器人建造火星/月球基地,几近完美的导师/建议AI等等。这是一种全新的「测试时计算」。比如AlphaGo的进步,就并非来自复杂的手工设计功能,而是来自简单方法的规模化,在推理中应用大规模搜索,以及集成深度强化学习。原创 2025-01-01 15:35:45 · 1145 阅读 · 0 评论 -
让AI理解费马大定理的证明,两个月过去了,进展如何?
根据我目前对数学的观察(作为形式主义者),当 Antoine 发现这个问题时,整个晶体上同调理论就从文献中消失了,并带来巨大的附带损害(例如数学家 Scholze 的大量工作就消失了,整本的书籍和论文都化为乌有)。几个小时后,他回复了我,并指出,在 Berthelot-Ogus 的关于晶体上同调的著作的附录中,存在对「模的一般除幂代数具有除幂」这个断言的另一个不同的证明,而且 Conrad 认为这个方法没有问题。然而,大多数数学家都不是形式主义者,对于这些人,我需要以不同的方式说明我的工作的合理性。原创 2025-01-01 15:30:10 · 865 阅读 · 0 评论 -
突发!刚刚,OpenAI裂变成了两块:一块营利,一块非营利
部分原因在于我们的进步,该领域的活力与竞争,从类似于 ChatGPT 的商业产品到开源大模型,到各领域积极的创新、对于安全的追求等等。与美国其他州公益公司要求的类似报告不同,特拉华州公共利益公司(PBC)编制的两年一次报告不必按照第三方标准或认证机构的措施完成或使用其措施,尽管公司可以根据其认为合适的情况采用此类标准或获得第三方认证机构的认证。公益公司不必公开此报告。最终,很明显,最先进的 AI 将不断使用越来越多的计算,而扩大大型语言模型的规模是一条有希望的 AGI 之路,它植根于对人类的理解。原创 2025-01-01 15:29:21 · 818 阅读 · 0 评论 -
豆包说要「普惠」,于是大模型处理图片按「厘」计价了
据智源研究院 12 月 19 日发布的国内外100余个开源和商业闭源的大模型综合及专项评测结果,「大语言模型评测能力榜单」中,豆包通用模型 pro 在重点考察中文能力的主观评测中排名第一,「多模态模型评测榜单」中,豆包·视觉理解模型在视觉语言模型中排名第二,仅次于 GPT-4o,是得分最高的国产大模型。背后的技术源自豆包・文生图模型原生的文字渲染能力,豆包大模型团队通过打通 LLM 和 DiT 架构和构建高质量文字渲染数据,大幅提升了模型在文字生成方面的准确率,尤其是结构复杂、字符数量较多的汉字场景。原创 2024-12-24 15:45:16 · 849 阅读 · 0 评论 -
从线性注意力视角揭秘视觉Mamba,清华、阿里合作提出全新MILA模型
基于以上分析和验证,本文将 Mamba 和线性注意力的优秀设计结合起来,将 Mamba 的两项核心设计的精髓引入线性注意力,构建了 Mamba-Inspired Linear Attention (MILA) 模型。本文给出了一个十分有趣的发现:强大的 Mamba 模型与通常被认为性能不佳的线性注意力有着内在的相似性:本文用统一的公式表述了 Mamba 中的核心模块状态空间模型(SSM)和线性注意力,揭示了二者之间的密切联系,并探究了是哪些特殊的属性和设计导致了 Mamba 的成功。原创 2024-12-10 20:04:51 · 1055 阅读 · 0 评论 -
NeurIPS 2024 | 智能体不够聪明怎么办?清华&蚂蚁团队:让它像学徒一样持续学习
相比之下,AMOR 则如同经验丰富的专家,每一步推理都清晰可控,不仅能准确找到答案,还能接受精确的过程指导,持续提升自己的能力。这就像是在 AI 的「大脑」中划分了专门的「思维区域」。AMOR 框架给出了一个优雅的答案:将复杂的 AI 推理过程拆解成可控的「专家模块」,通过有限状态机(FSM)编排它们的协作规则,就像精密的齿轮系统一样,每个部件都完美啮合。:这个阶段就像师傅在旁边观察学徒的工作,并给出具体指导,可以直接说「对」或「错」,也可以具体指出正确答案,并且 AMOR 的每个推理步骤都能得到反馈。原创 2024-12-10 20:03:23 · 1083 阅读 · 0 评论 -
OpenAI的强化微调:RL+Science 创造新神还是灭霸?
这个结果很漂亮,用的技术正是已经广泛应用于 alignment, math, coding 领域的方法,其前身就是 Reinforcement learning from human feedback (RLHF). RLHF 用来对齐大模型与人类偏好性数据,训练数据的形式为(问题,回答 1,回答 2,偏好),让用户选择更喜欢的回答,学习人类的偏好,训练奖励模型(reward model)。科学的数据也往往是 noisy 的,不是简单的多选题,没有清晰的决策树。然而,看到这个项目的时候,让人冷汗不已。原创 2024-12-08 21:38:17 · 559 阅读 · 0 评论