自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(31)
  • 收藏
  • 关注

原创 少用33%数据,模型性能不变,陈丹琦团队用元数据来做降本增效

MeCo 还超越了数据挑选基线。研究者使用相同的优化超参数和相同的数据量(DCLM 上的 160B)来训练所有模型,其中 8B 模型是个个例,它使用 80B token 进行训练,由于资源限制和训练不稳定而导致学习率较低。为了确保通用性,研究者在冷却阶段,使用了没有任何元数据的标准预训练文档来训练模型,该阶段涵盖了预训练过程最后 10% 的步骤。值得注意的是,当将 240B 基线模型与 160B MeCo 模型比较时,由于数据量较大,基线模型表现出的困惑度要低得多,但这两个模型实现了类似的平均性能。

2025-01-08 16:41:57 934

原创 够新!够权威!2025十大AI技术趋势

随着人工智能(AI)技术的不断发展,2025年将迎来一系列重要的技术趋势,推动各行业的变革和进步。

2025-01-08 16:40:43 1579

原创 时隔6年,谷歌BERT终于有替代品了!更快更准更长,还不炒作GenAI

首先在序列长度为 1024 的情况下训练了 1.7T tokens 的数据,然后采用一个长上下文适应阶段,在序列长度为 8192 的情况下训练了 250B tokens 的数据,同时通过降低批大小来保持每个批次的总 tokens 数大体一致。相比之下,BERT 模型就像本田思域,这也是一项工程学的胜利,但更微妙的是,它被设计成价格实惠、省油、可靠且极其实用的车型。当然,ModernBERT 的速度也很快,它的速度是 DeBERTa 的两倍 —— 事实上,在输入混合长度的情况下,速度最高可提高 4 倍。

2025-01-06 11:22:30 888

原创 接连被开源项目curl、Prisma弃用,Rust语言遭遇水逆,网友:从狂热粉到后悔莫及

在一个关于「哪些原因阻止你在 2025 年学习 Rust」的调查中,有人抛出了一个有力的观点:他最常用的 C/C++ 库是同类中最好的,背后有数十年的开发经验。随着时间的推移,Rust 现在已经有所改进,成为一种更好的语言,并可以为类似 hyper 的项目提供更好的服务。然而,正是那最后的百分之几却变成了最大的阻力,最终导致了项目失败、放弃并全部撤出。近几年 Rust 语言正在强势崛起,在一些编程语言排行榜中的排名一直在攀升,比如 2024 IEEE Top 编程语言榜单中,Rust 的排名就很靠前。

2025-01-06 11:21:07 850

原创 从2019年到现在,是时候重新审视Tokenization了

结果显示,虽然在较简单的问题上差异不太明显,但随着问题复杂性的增加,表现最佳的 tokenizer(单位数分词)与其他 tokenizer 之间的差距越来越大。如上所示,在三位数从左到右(L2R)的例子中,9 + 1 应该映射到数字 0,但实际上却与 8 组合在一起形成了 80,因为前面的三个 token(125)已经被分在一起了。在一篇新博客中,来自 HuggingFace 的研究者讨论了可能造成这一问题的原因之一 ——tokenization,并重点分析了它如何影响模型的数学能力,尤其是算术能力。

2025-01-05 11:38:24 615

原创 Just keep scaling!思维链作者Jason Wei 40分钟讲座剖析LLM扩展范式

Minerva 的研究团队并没有从头设计一个新的模型,而是基于现有的语言模型,通过在大量数学相关数据(如 arXiv 上的论文)上继续训练,显著提升了模型在数学任务上的表现。因此,理想情况下,未来的方向是:你可以提出一个非常具有挑战性的问题(比如撰写一篇关于如何制造 AI 的研究论文),然后语言模型可以在推理时花费大量的计算资源来尝试解决这个问题。也许你提出问题后,成千上万的 GPU 运行一个月,最终它会返回一个完整的答案,比如这是关于如何制造 AI 的一整套研究成果。今天的主题是大型语言模型的扩展范式。

2025-01-05 11:37:21 1247

原创 联手OpenAI,吴恩达推出一门o1推理新课程,还免费

具体来说,在 Reasoning with o1课程中,学生将了解 OpenAI 如何利用强化学习来构建使用「测试时计算」来提高推理任务性能的模型;相比于以往大型语言模型,o 系列模型使用更多的计算进行更深入的「思考」,能够回答更复杂、更细致的问题。使用 o1 进行图像理解,并了解它如何通过层次推理获得更好的性能,其中它会预先产生延迟和成本,预处理图像并使用丰富的细节对其进行索引,以便稍后用于问答。学习识别 o1 模型适合哪些任务,以及何时需要使用更小或更快的模型,或将这两者结合起来。

2025-01-02 20:18:07 570

原创 AI模拟细胞,走向全新虚拟生命,斯坦福团队呼吁是时候走出全新的一步了

AI 中的最新建模方法提供了表示和推理工具,这些工具满足预测、生成和可查询的三重奏,是推进生物学研究和理解的关键实用程序。团队坚定不移地倡导开放科学方法的作用,在开放科学方法中,科学界乐于共享数据、模型和基准,将发现和见解置于情境中,并营造持续改进的氛围。这些数据需要涵盖不同物种、领域和模式的生物学广度,代表生命的异质性,同时保持足够的深度以区分真实信号和噪声。虽然,细胞的属性与行为无不在挑战物理与计算建模的极限,其中动态和适应系统所蕴含的复杂行为让整个细胞内部对于扰动的反应处于截然不同的反应状态。

2025-01-02 20:11:37 1205

原创 AAAI 2025 | 用于韦伯区位问题的去奇异性次梯度方法

本文基于求解该问题常用的 Weiszfeld 算法 [5][2],建立一种基于 q 次方 p 范数的去奇异性 Weiszfeld 算法(简记为 qPpNWAWS,如 18 式所示)。结果表明一定数目的其他 (q,p) 情形(例如 (q,p)=(1,1.6))的得分要比原始版本 (q,p)=(1,2) 的得分高。因此解决 1

2025-01-01 14:50:39 971

原创 港科大开源VideoVAE+,视频重建质量全面超越最新模型

在第一阶段,该研究将 2D 卷积扩展为核大小为 (1,3,3) 的 3D 卷积,并与同时建模类似,同时添加了额外的 3D 卷积层来建模时序维度,该研究将第一阶段的模型称为时序感知的空间自编码器。港科大团队重磅开源 VideoVAE+,提出了一种强大的跨模态的视频变分自编码器(Video VAE),通过提出新的时空分离的压缩机制和创新性引入文本指导,实现了对大幅运动视频的高效压缩与精准重建,同时保持很好的时间一致性和运动恢复。此外,时间维度上的冗余信息未被充分压缩,使得后续的扩散模型训练效率低下,成本高昂。

2025-01-01 14:49:36 2118

原创 AI教父、诺奖得主Hinton支持起诉OpenAI,阻止「转营利」

前雇员 Miles Brundage 是一名长期政策研究员,于 10 月份离开了 OpenAI,他在 X 上的一系列帖子中表示,他担心 OpenAI 的非营利组织会成为一个「副业」,PBC 公司的部分则会作为「正常公司」运营,潜在的问题不会被解决。它从其非营利组织的地位获得了包括税收等多方面的好处。但在上周五,OpenAI 发布了拆分为营利机构 + 非营利机构的公告,表示计划开始将其现有的营利性公司转变为特拉华州公共利益公司 (PBC),并发行普通股,PBC 的公共利益将是 OpenAI 的使命。

2024-12-31 20:07:29 582

原创 考研数学得126分、还能编写小游戏,智谱首个推理模型来了,人人免费用

其他三个模型在给出解题思路之后都对步骤和计算进行了确认,其中 DeepSeek-R1-Lite 预览版、QwQ-32B-Preview 的验证相对简单一些,而 GLM-Zero-Preview 不仅解题过程更清晰完整,还展示了自我反思、自我怀疑、自我肯定等拟人化的思维模式。回看这一整年,智谱动作不断,GLM 家族更加壮大,包括基座模型、多模态模型、视频生成模型、语音模型、推理模型以及智能体方面火出圈的 AutoGLM、GLM-PC,如今这家大模型独角兽的产品矩阵在完整度层面称得上业界领先。

2024-12-31 20:06:34 1347

原创 港大发布OpenCity: 大模型驱动下的智慧城市“新内核“

该模型采用 Transformer 编码器架构作为核心,以建模动态时空依赖性,并通过在大规模交通数据集上的预训练,OpenCity 在各种下游任务中表现出色,其零样本预测性能与全样本设置下的先进基线模型相媲美。我们将一小时的交通数据作为一个Patch的长度,并设置步长($S=P$),这样的设置使模型能够捕捉并适应交通数据在较长时间跨度内的演变趋势。右侧则对比了OpenCity在零样本条件下的表现与基线模型在全样本条件下的表现,尽管面临时空异质性分布偏移的挑战,OpenCity的性能依然与全样本基线相媲美。

2024-12-31 20:04:16 916

原创 机器人误触防熊喷雾24人住院?这个网站收集AI‘翻车’案例,所有‘罪证’都不放过

但是Incident 3的受害者就没有那么幸运了,2018年10月29日,Lion Air的一架波音737max在升空后,飞机上的防失速飞行控制系统把机头向下推了26次,尽管飞行员对每次机头朝下的动作都会再次拉起机头,但最后系统还是把飞机以每小时500多英里的速度带向大海。该基金会发布的统计摘要显示,今年的平均分数略高于去年,而且成绩分布也与去年类似。不止AI,许多技术刚出现时都是如此,而人们应对这类问题的方式也很简单——收集尽可能多的“翻车”数据,建立“翻车”数据集,以警示后人的研究。

2024-12-30 09:29:33 879

原创 突发!刚刚,OpenAI裂变成了两块

部分原因在于我们的进步,该领域的活力与竞争⁠,从类似于 ChatGPT 的商业产品到开源大模型,到各领域积极的创新⁠、对于安全⁠的追求等等。与美国其他州公益公司要求的类似报告不同,特拉华州公共利益公司(PBC)编制的两年一次报告不必按照第三方标准或认证机构的措施完成或使用其措施,尽管公司可以根据其认为合适的情况采用此类标准或获得第三方认证机构的认证。公益公司不必公开此报告。最终,很明显,最先进的 AI 将不断使用越来越多的计算,而扩大大型语言模型的规模是一条有希望的 AGI 之路,它植根于对人类的理解。

2024-12-30 09:26:41 738

原创 视觉语言模型易受攻击?西安交大等提出基于扩散模型的对抗样本生成新方法

实验结果表明,与最新的基于迁移的对抗攻击方法相比,该方法生成对抗样本的速度提高了 5 到 10 倍,同时保持了更高质量的对抗样本。具体而言,AdvDiffVLM 使用自适应集成梯度估计(Adaptive Ensemble Gradient Estimation, AEGE),在扩散模型的反向生成过程中调整得分,确保生成的对抗样本具备自然的针对性对抗语义,从而提升迁移性。此外,由于对抗语义的不自然性,生成的对抗样本的迁移性较低。此外,与之前的基于迁移的对抗攻击方法相比,该方法生成的对抗样本具有更好的迁移性。

2024-12-28 10:11:25 1267

原创 可在手机终端部署,人大等提出全新人物图片保护模型RID

下图展示了 RID 保护成功的原理,相比干净图片,RID 保护的图片在扩散模型不同时间步上的损失均有较大程度的上升,而定制化模型本质上只是引入了一个新的概念,对于同一组图片,定制化前后的模型损失变化并不大,因此没办法覆盖 RID 增加扰动所带来的损失上升,因此 RID 保护的图片对于模型而言是一个 OOD 的图片概念,模型无法正确学习到并且生成。从下图 a 中可以看出,经过 RID 保护的图片可以有效的实现图片的反定制化,即保护后的图片的定制化模型无法生成正常的图片。

2024-12-28 10:09:58 884

原创 Vozo-根据文案自动配音并编辑视频

Vozo 是一个基于人工智能的视频编辑工具,允许用户通过简单提示重写、重新配音和编辑视频。它保留原音情感,实现文本编辑声音和口型同步,简化视频创作过程,适合内容创作者和市场营销人员等用户。

2024-12-26 17:17:12 473

原创 Chrome浏览器官方内置的AI模型

💡可在chrome浏览器中,离线运行gemini nano模型。设计目标是提供高效、便捷的 AI 支持,同时确保用户隐私和数据安全。

2024-12-26 17:15:48 631

原创 在Android上运行的本地实时翻译应用程序

RTranslator是一个几乎开源、免费且离线的安卓实时翻译应用程序。只需与安装了此应用的人建立连接,连接蓝牙耳机,并将手机放在口袋里,就可以像与对方用你的语言进行对话一样自如交谈。对话模式对话模式是 RTranslator 的主要功能。在这种模式下,您可以与另一部使用该应用的手机连接。当您讲话时,您的手机(或已连接的蓝牙耳机)将捕捉音频。音频捕获的内容将被转换为文本并发送到对话者的手机。对话者的手机将收到的文本翻译成他的语言。

2024-12-26 17:13:53 692

原创 开源AI搜索工具-FreeAskInternet

一个完全免费、私密且在本地运行的搜索聚合器和答案生成器,使用LLM,无需 GPU。用户可以提出问题,系统将使用 searxng 进行多引擎搜索,并将搜索结果与 ChatGPT3.5 LLM结合,基于搜索结果生成答案。所有过程在本地运行,无需 GPU、OpenAI 或 Google API 密钥。

2024-12-26 17:12:25 609

原创 突破数据瓶颈!交大研发电脑智能体,让 AI 替你熬夜做 PPT

在使用电脑时,我们的脑中经历了自然的认知活动过程,包括对历史进展和当前状态的分析,作出下一步决策的推理等。团队提出了一种创新的认知迁移框架,包括首个高效采集人机交互数据的工具 PC Tracker 和完整的认知重建过程,并初步验证了方法的高效性。现有大语言模型展现出强大的能力,但未能完美胜任智能体工作流的需求,包括在长过程中充分关注上下文,根据变化的环境做出决策,并根据反馈调整策略。在面对复杂任务时,如何保持行动与目标的一致性,以及如何建立更加完善的纠错机制,仍是亟待深入讨论的问题。值得指出的是,此系统。

2024-12-25 14:04:37 693

原创 今年最被低估的AI模型之一,重现李小龙功夫音

近期,伊利诺伊大学和索尼的联合团队搞出了一个配音工具 MMAudio——上传一段视频,不需要人工手动,系统可以自动生成合适的音频,效果很不错。动作音效则是视频中可见事件产生的声音,例如物体碰撞的声音、运动器材的声音(如网球拍击球)、动物的叫声(如狗叫)等。环境音效指的是场景中的背景声音,比如下雨声、河流声、风吹树叶的沙沙声、鸟叫声等自然环境的声音。这是大导演库布里克的电影《闪灵》中的一个场景,原来只有背景音乐,没有音效。MMAudio 可以重现李小龙功夫音,难得的是,双节棍舞动的声音也有卡点。

2024-12-25 14:02:52 853

原创 超三万种材料,近百万真实材料合成表征信息,LLM精准构建材料知识图谱MKG,登NeurIPS 2024

为了解决这些问题,团队将大型语言模型引入知识图谱的构建流程,不仅可以通过自动化构建本体论,提取和分析巨量文献中的数据来构建初步的知识图谱,还可以通过持续学习来适应新的研究成果和理论发展,从而保持知识图谱的前沿性和准确性。通过这些技术的应用,MKG 的构建和维护成为可能,极大地促进了材料科学研究的深度和广度,为科研人员提供了一个强大的工具,帮助他们更快地发现和应用新材料,推动科技创新和工业应用。用图算法和神经网络来分析和预测材料之间的新关系,这包括增加新的实体和关系,更新图中的信息。

2024-12-24 15:28:41 662

原创 Meta、斯坦福等:AI的下一个前沿,正是陶哲轩说的形式化数学推理

其中,符号组件(AlphaProof 的 Lean、AlphaGeometry 的特定领域几何系统)的作用是执行神经网络的推理步骤并生成高质量的合成数据,从而实现前所未有的数学推理能力。虽然形式化验证可以得到极其稳健和安全的软件和硬件系统,但从历史上看,除了安全性至关重要的应用之外,形式化验证其实很少用,因为其部署成本太高。这一节,该团队分享了几个仍待解决的挑战和有希望的研究方向,包括形式化数学推理的数据和算法、协助人类数学家和证明工程师的 AI 工具,以及集成 AI 和形式化方法来生成可验证代码。

2024-12-24 15:07:46 855

原创 人工智能学习框架教程

人工智能是一个多学科交叉的领域,学习 AI 需要结合数学、编程、算法等基础知识,并通过实践项目逐步深入。以上介绍的 AI 学习框架和工具是当前行业中最常用的,掌握它们将帮助你高效地进行 AI 项目的开发和实验。访问更多内容来源。

2024-12-23 18:47:33 993

原创 计算机视觉算法教程

通过这篇教程,我们介绍了计算机视觉的基础概念和常见算法,包括边缘检测、图像分类、目标检测和图像分割等,并通过示例代码演示了如何使用 Python 和深度学习框架实现这些算法。

2024-12-23 18:46:15 762

原创 机器学习实战教程

机器学习是一种基于数据的建模方法,它通过算法自动分析和学习数据中的模式,并根据这些模式进行预测和决策。监督学习(Supervised Learning):训练模型时需要有标签数据。输入数据和目标输出数据一起训练,模型学习从输入到输出的映射关系。常见任务包括分类和回归。无监督学习(Unsupervised Learning):训练模型时没有标签数据。算法自动分析数据的结构,进行聚类、降维等操作。半监督学习(Semi-Supervised Learning)

2024-12-23 18:44:54 672

原创 深度学习模型教程

深度学习模型为多种复杂任务提供了有效的解决方案,包括图像识别、语音处理、自然语言处理等。理解不同类型的深度学习模型(如 CNN、RNN、GAN、Transformer)及其应用,可以帮助我们选择合适的模型来解决特定问题。模型训练、评估和优化是开发深度学习应用的关键步骤,数据预处理和超参数调优也是确保模型访问更多内容来源。

2024-12-23 18:43:10 1024

原创 统一视觉理解与生成,MetaMorph模型问世,LeCun、谢赛宁、刘壮等参与

当前,人们试图建立「统一」的模型,能够同时进行多模态理解和生成,这就通常将视觉生成视为与视觉理解正交的功能。这些挑战包括否定和主观性,MetaMorph 使用了在 Multimon 中识别出的常见失败模式的提示来区分语义的细微差别,如「稍微」与「非常」、「少数」与「许多」、「没有」与「有」,这些都是现有文本到图像系统中常见的失败。重要的是,研究结果强调了每种能力的训练对模型整体视觉性能具有不对称的影响:在提高视觉理解和生成方面,以理解为中心的训练大大优于以生成为中心的训练。但令人惊讶的是,事实恰恰相反!

2024-12-23 13:17:04 1151

原创 两位数学家发现素数计数新方法,原来「p²+nq²」形式的素数真有无限多个

这些数就是粗略素数。最后,他们还成功扩展了他们的结果,证明了:其它素数族的素数也有无穷多个。近日,来自牛津大学的 Ben Green 和哥伦比亚大学的 Mehtaab Sawhney 证明了一个特别具有挑战性的素数类型的定理 —— 是否存在无穷多个形式为 p² + 4q² 的素数,其中 p 和 q 也必须是素数?这两位数学家的证明在今年 10 月份以预印本的形式发布,不仅加深了数学家对素数的理解,还利用了数学中不同领域的一套工具,表明这些工具远比数学家们想象的要强大得多,并有可能成熟地应用于其他领域。

2024-12-23 13:12:19 1007

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除