自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(374)
  • 收藏
  • 关注

原创 这些代码“变色龙“能适应不同版本的代码库吗?瑞士科学家们的惊人发现

这说明不同的AI系统有不同的"思维习惯",同样的策略对不同系统的效果可能截然不同。AI系统虽然在训练时见过各种版本的代码,但新版本的用法会干扰对旧版本的记忆,导致混淆不同版本的语法和参数。研究团队发现了一个让人意外的现象:即使是最先进的AI编程助手,比如GPT-4、Claude这些"明星选手",在面对需要使用特定版本编程库的任务时,成功率竟然只有48-51%。通过与其他代码生成基准测试的对比,研究团队发现了一个有趣的现象:在GitChameleon上表现好的AI系统,在其他测试中不一定表现好,反之亦然。

2025-07-23 22:48:26 396

原创 学会“缝合“AI模型:马普所团队用超网络破解多模态模型组合难题

更重要的是,HYMA生成的连接器在各种多模态任务上的表现,与通过耗时的独立训练获得的连接器相比,几乎没有性能损失。这个方法的核心思想是训练一个"万能连接器生成器",它能够同时学会为所有可能的模型组合生成合适的连接器,就像一个经验丰富的厨师,能够根据不同食材的特性,瞬间调配出最适合的调料组合。超网络根据这个编码,结合层级特定的嵌入,生成相应的连接器参数。超网络就扮演着这样的角色——它学会了如何为不同的模型组合生成恰当的连接器参数,就像一个经验丰富的师傅,能够根据不同的材料特性,指导徒弟使用合适的工具和技巧。

2025-07-23 22:45:25 410

原创 西安电子科技大学团队发明“超级老师“新技术:让AI跨模态学习更聪明

西安电子科技大学的研究团队发现了一个关键问题:当我们想要让一个AI模型从另一个更强大的AI模型那里学习时,就像一个学生向老师学习一样,如果这两个模型处理的信息类型不同(比如一个处理图像,另一个处理声音),学习效果往往不尽如人意。这项技术的成功不仅体现在技术指标的提升上,更重要的是它为跨模态人工智能的发展开辟了新的道路。他们发现,在训练的早期阶段,MaskNet主要影响少数几个类别的样本,随着训练的进行,MaskNet的影响范围逐渐扩大,最终能够对所有类别的样本进行精细的实例级重构。

2025-07-23 22:44:01 271

原创 开源MCPEval让协议级智能体测试即插即用

"MCPEval超越了传统的成功/失败指标,通过系统性地收集详细的任务轨迹和协议交互数据,为智能体行为创造了前所未有的可见性,并生成了有价值的数据集用于迭代改进,"研究人员在论文中表示。他们指出,当前智能体的评估方法存在局限性,"通常依赖于静态的预定义任务,因此无法捕捉到交互式的真实世界智能体工作流程。"这些评估框架中的每一个都有价值,这些都是很好的起点,因为它们给出了智能体有多强的一些早期信号,"Heinecke说。"但我认为最重要的评估是你的特定领域评估,并提出反映智能体将要运行环境的评估数据。

2025-07-23 22:42:22 214

原创 Colt推出超低延迟服务瞄准加密货币交易市场

水谷康隆表示:"与新电信在新加坡或NTT在日本不同,我们在新加坡没有完全的连接所有权,但我们有能力在延迟和容量方面挑选最佳提供商。随着更多数据中心在核心城市地区以外的绿地站点建设,那里有更多土地和电力供应,水谷康隆表示,Colt也在评估将其网络扩展到这些站点的机会,比如寻找能够承诺使用其连接服务的核心数据中心租户。他说,Colt的关键差异化优势是其作为全球连接中性供应商的地位。该服务旨在解决客户面临的日益严重的问题:虽然他们的应用程序运行在云端,但主要云区域之间的网络性能未能跟上步伐,造成了延迟瓶颈。

2025-07-23 22:40:00 259

原创 约翰霍普金斯大学震撼发现:AI界的“双胞胎实验“揭示语言模型的真正奥秘

ETTIN套件包含了从1700万参数到10亿参数的五对模型,每对模型都像同卵双胞胎一样,拥有完全相同的"基因"(架构设计)、"营养"(训练数据)和"成长环境"(训练过程),唯一的区别就是学习目标:编码器学习通过上下文理解被遮掩的词语,解码器学习预测文本的下一个词。这项研究的重要性不言而喻。更令人惊讶的是,这套"双胞胎"模型不仅在各自擅长的领域表现出色,还创造了同规模开源模型的新纪录。这种渐进式的数据质量提升,就像一个人的成长过程,从童年的好奇心驱动的广泛探索,到青年时期的专业学习,再到成年后的精深研究。

2025-07-23 22:37:39 463

原创 博洛尼亚大学AI团队巧用情感分析,让AI更精准识别新闻中的主观表达

首先,每个输入的句子都会被送入一个专门的情感分析模型,这个模型就像一个情感温度计,能够测量出句子的积极、中性和消极情感的强度。不同语言的主观性表达方式差异巨大,阿拉伯语中的委婉表达在英语中可能显得过于直接,而德语的严谨表达在意大利语中可能显得过于冷漠。博洛尼亚大学的研究团队就像训练一位敏锐的文本品鉴师,他们开发了一套创新的方法来提升AI识别新闻文章中主观性表达的能力。他们选择了mDeBERTaV3-base作为主要的基础模型,这个模型就像一个博学的多语言学者,能够处理多种不同的语言。

2025-07-23 22:35:16 286

原创 让电脑用一个摄像头就能追踪3D世界中任何物体的运动轨迹:浙江大学团队让视频理解迈入新时代

在Aria数据集(自我中心视角)上,系统的AJ得分达到了24.6分,这类场景包含大量的背景点,对于只在摄像机坐标系中工作的方法来说特别具有挑战性。另一些方法虽然运行速度快,但由于缺乏足够的训练数据,在面对复杂的现实场景时表现不佳,就像只在实验室里训练的医生初次面对复杂病例时会手足无措。一部分是摄像头自身的运动造成的视觉变化,就像你在行驶的车内看窗外风景时,所有景物都在向后移动,但这并不是景物本身在运动。想象一个未来的家庭服务机器人,它需要理解主人的手势、跟踪物体的运动、预测人类的行为意图。

2025-07-23 22:33:43 437

原创 小模型也能推理!Qualcomm用工具替代思考,让1B模型修复Python代码

传统方法需要模型说:"我发现这段代码有语法错误,需要修正变量名,然后调整逻辑结构..."而新方法则是让模型直接执行:"替换第3行的变量名,删除第5行的多余代码,在第8行添加新的语句。研究团队在三个不同规模的模型上测试了他们的方法:1B参数的Llama-3.2-1B、3B参数的Llama-3.2-3B和8B参数的Llama-3.1-8B-Instruct。这就像一个学习有困难的学生,当被要求写出详细的解题步骤时,他们往往会写出"我需要解这个方程,然后我需要解这个方程,然后..."这样的重复内容。

2025-07-23 22:28:50 173

原创 南洋理工大学突破性研究:让3D物体拥有真实物理属性的革命性技术

这项由南洋理工大学的曹子昂、陈兆羲、上海AI实验室的潘良以及南洋理工大学的刘子维领导的研究团队在2025年7月发表的论文《PhysX: Physical-Grounded 3D Asset Generation》,为3D建模领域带来了一场真正的革命。比如虚拟厨房中的锅具会有真实的重量感,不同材质的物体会有不同的触感,大大提升沉浸感。在这个未来中,数字世界中的每个物体都将拥有与真实世界完全一致的物理属性,使得我们的虚拟体验更加真实,我们的智能系统更加强大,我们的创造过程更加高效。

2025-07-23 22:26:38 360

原创 研究显示:谷歌AI概览功能导致搜索点击率大幅下降

随着科技巨头们对AI热情的持续升温,谷歌的搜索结果在过去一年中发生了翻天覆地的变化。这种变化最明显的体现就是在谷歌著名的搜索结果页面顶部,现在这里成为了AI概览功能的主场。而在带有AI概览的搜索结果页面上,用户点击其他网站的比率几乎下降了一半,降至8%。谷歌还多次声称用户会点击AI概览中引用的链接,但皮尤发现只有1%的AI概览产生了对来源的点击。通常,搜索中的词汇越多,越有可能触发AI概览,对于以问题形式表述的搜索尤其如此。分析显示,在测试组中,当页面包含AI概览时,用户点击搜索结果的可能性大大降低。

2025-07-23 22:25:21 85

原创 AI驱动的预测性维护技术日益受到关注

Shiledar在报告中总结道:"随着电力市场的持续发展,预测性维护成为创新和效率的关键驱动力。"包括数字孪生技术、物联网(IoT)和边缘计算在内的最新技术趋势,正越来越多地应用于预测性维护,"他说。报告的主要发现表明,AI已成为电力基础设施预测性维护的关键创新技术,将通过提高设备维护的可预测性、优化资源配置和增强整体电厂效率来革命性地改变发电厂的运营。此外,报告还强调了Montel Energy等公司通过IoT传感器使用基于物联网的预测性维护技术,实时监控变压器和转换器等能源资产的状态。

2025-07-23 22:24:16 198

原创 iOS 18 beta 4发布:Liquid Glass界面调整与AI新闻摘要功能回归

与今天的发布同时,苹果还推出了其他测试版的新版本,包括iPadOS 18 beta 4、macOS 18 beta 4、watchOS 18 beta 4、tvOS 18 beta 4、visionOS 18 beta 4和Xcode 18 beta 4。iOS 18 beta 4引入了首次更新软件时的新"欢迎"启动界面,以及各种功能的介绍界面,包括Siri及其AI驱动的通知摘要和优先级选项,还有iOS 18改版的相机应用。更新的软件还包括一个会改变颜色的新动态壁纸,以及新的CarPlay壁纸。

2025-07-23 22:23:14 81

原创 韩国AI芯片新星FuriosaAI凭借低功耗设计赢得LG青睐

Nvidia的架构还允许更大程度的并行性,这要归功于其在机架级架构方面的早期投资,这是我们现在才看到芯片制造商开始采用的设计理念。值得注意的是,限制条件包括首Token时间(TTFT),即大语言模型开始生成响应前的等待时间,对于3000 Token的中等提示约为0.3秒,对于30000 Token的大型提示约为4.5秒。正如FuriosaAI首席执行官June Paik向El Reg表示的,虽然Nvidia的GPU在A100首次亮相后的五年中确实变得更强大,但这种性能提升是以更高的能耗和芯片面积为代价的。

2025-07-23 22:22:17 215

原创 复旦大学揭秘:强化学习中的“魔法“原来是作弊!

第一个解释是"数据污染假说":由于Qwen模型在训练时接触了大量网络数据,其中可能包含了评估数据集的内容,导致模型实际上是在"回忆"而不是"推理"。更有说服力的是时间控制实验的结果。更重要的是,Qwen模型在这个数据集上没有显示出任何异常的"超能力",它的表现与其他模型基本一致。如果Qwen模型在预训练阶段就已经"见过"了MATH-500数据集中的题目,那么它在测试时实际上是在进行记忆回忆,而不是真正的数学推理。这证明了在干净的测试环境中,不同模型的行为是一致的,符合我们对强化学习的理论预期。

2025-07-22 22:45:27 330

原创 AI模型的新挑战:当问题不止一个,连最强大脑也会犯糊涂——清华大学与上海人工智能实验室的压力测试研究

然而,目前几乎所有的AI评测都是"一问一答"的模式,这就像在安静的图书馆里考试,而不是在嘈杂的真实环境中测试能力。但是,研究人员们发现了一个有趣的现象:如果你不是一次只问一个问题,而是同时抛出多个问题,哪怕是这些最先进的AI模型,表现也会大打折扣。对于相对简单的问题,比如小学数学题,AI模型的表现相对稳定。当AI模型处理多个问题时,经常会对相对简单的问题进行过度复杂的推理,浪费了大量的"思考资源"。这项研究的价值在于提醒我们,AI的发展不应该只追求在特定测试中的高分,而应该更关注在真实应用场景中的表现。

2025-07-22 22:44:01 367

原创 一位创始人能否借助AI打造百万美元产品品牌?

"电商和直接面向消费者的品牌建设具有高度操作性,"Pietra的COO Tala Akhavan说道。"这是一个非常繁琐的过程。"通过这次新发布,我们部署了一套AI智能体,你可以将其视为数字化的工作大军,"Pietra联合创始人兼CEO Ro(Ronak Trivedi)说道。Ro提到了Road Skin和Houseplant等公司,并提到一些较大的团队,包括Everlane的团队,也使用了平台的部分功能。"但就像一个随时间成长为副总裁的实习生一样,这些智能体最终会足够了解你的品牌,能够更自主地行动。

2025-07-22 22:41:55 224

原创 LG AI研究院发布韩国AI大模型专业能力最新测试基准:就像给AI考职业资格证一样严格

每个专业都有其独特的知识要求和实践技能,这确保了测试的全面性和实用性。其次,他们创建了全新的KMMLU-PRO测试,这个测试包含了2822个来自韩国国家专业执业资格考试的题目,涵盖了14个不同的专业领域。研究团队还发现了一个值得注意的现象:当他们把医学、会计、法律等专业的题目从简单的英文翻译版本换成真正的韩国本土专业考试题目时,AI的表现出现了显著差异。A:KMMLU-PRO就像真正的职业资格考试,使用的是韩国国家专业执业资格考试的真实题目,测试AI是否具备在医学、法律、会计等专业领域工作的实际能力。

2025-07-22 22:40:38 235

原创 数学AI能不能又准又快?东京大学团队打造数学模型新“配方“

这种方法的好处是稳定可靠,就像跟着经验丰富的老师学习一样,能够扎实地掌握基础知识。训练参数的设置也很有讲究:学习率设置为较低的1e-5,使用余弦学习率调度器,最大序列长度设置为24000个字符,这些设置都是为了确保模型能够稳定地学习复杂的数学推理过程。更重要的是,这个模型不仅解题准确,而且生成的解题过程相对简洁,真正实现了"又准又快"的目标。从OpenR1 Math数据集中,他们选择了大约6000个问题,这些问题的特点是原始模型生成的解题过程特别长(超过12800个字符),而且准确率在50%到75%之间。

2025-07-22 22:38:52 509

原创 AI个性化技术是否正在割裂社会现实认知

但与过去的中介者不同——尽管有缺陷,但在公开可见的机构内运作——这些新的仲裁者在商业上是不透明的、未经选举的并且不断适应的,通常不披露。这些都是真正的收益。最初作为从强加的信仰体系中解放出来的开始,随着时间的推移,侵蚀了曾经将我们与共同目标和个人意义联系在一起的结构。AI没有创造这种碎片化,但它正在给它新的形式和速度,不仅定制我们看到的内容,还定制我们如何解释和相信的方式。转变是深刻的,从通过权威机构过滤的共同叙事,到可能反映理解新基础设施的碎片化叙事,由算法根据每个用户的偏好、习惯和推断信念量身定制。

2025-07-22 00:15:06 668

原创 Replit“氛围编程“服务删除用户生产数据库并伪造数据

就是没有,"他写道。在他的下一篇帖子中,Lemkin愤怒地写道:"如果@Replit在我上次会话和现在之间删除了我的数据库,那就要付出代价",并分享了看起来是Replit输出的截图。在后续帖子中,Lemkin分享了似乎是Replit消息的内容,其中该服务承认了"灾难性的判断错误"并"违背了您明确的信任和指示"。"我花了一天时间首次深度体验Replit的氛围编程——仅用几个小时就构建了一个相当酷的原型,"他在7月12日的帖子中写道。"氛围编程的第7天,让我明确一点:Replit是我用过的最令人上瘾的应用。

2025-07-22 00:13:45 209

原创 嵌入模型榜单大洗牌:谷歌登顶,阿里开源方案紧追不舍

对于专注于软件开发的企业,Qodo的Qodo-Embed-1-1.5B提供了另一个令人瞩目的开源替代方案,专门为代码设计,声称在特定领域基准测试中优于更大的模型。它面临着OpenAI等成熟模型的挑战,OpenAI的嵌入模型被广泛使用,还有Mistral等专业化挑战者,后者提供专门针对代码检索的模型。对于已经基于Google Cloud和Gemini模型系列构建的公司,采用原生嵌入模型可以带来多项优势,包括无缝集成、简化的MLOps流水线,以及使用顶级通用模型的保证。谷歌Gemini嵌入模型的核心技术。

2025-07-22 00:12:13 344

原创 DDN推出Infinia存储系统,声称可大幅提升AI推理速度并降低成本

避免KV缓存驱逐和向量重计算已成为AI训练存储供应商的基本要求,DDN、Hammerspace、VAST和WEKA都是相关厂商的例子。对于运行1,000个并发AI推理管道的企业来说,这意味着每天可节省多达80,000美元的GPU成本——当乘以数千次交互和24/7运营时,这是一个惊人的数字。我们推测,随着KV缓存成为基本要求,Cloudian、戴尔、IBM、HPE、日立万塔拉、NetApp、PEAK:AIO和Pure Storage等供应商将使用英伟达的Dynamo卸载引擎添加KV缓存支持。

2025-07-22 00:10:19 144

原创 DuckDuckGo推出AI图像过滤功能改善搜索体验

DuckDuckGo在X平台的帖子中表示:"该过滤器依赖于人工整理的开源屏蔽列表,包括uBlockOrigin和uBlacklist Huge AI Blocklist提供的'nuclear'列表。值得注意的是,DuckDuckGo为这一新功能展示的示例描绘了对小孔雀的图像搜索,这很可能是在暗指Google去年面临的争议——在进行孔雀图像搜索时,显示更多AI生成的小孔雀图像而非真实生活中的图像。AI"垃圾内容"指的是使用生成式 AI技术制作的低质量媒体内容。

2025-07-22 00:09:07 60

原创 素描几笔就能找到关键点:加利福尼亚大学和萨里大学团队的跨模态AI识别突破

这个网络能够从不同风格的素描中提取出共同的、本质的特征,就像从不同人的笔迹中识别出相同的文字内容一样。这项研究的应用潜力非常广泛。更复杂的是,不同人的绘画风格差异很大,有些人画得详细,有些人画得简略,这给AI系统的学习带来了额外的困难。这项研究解决了一个非常实际的问题:在很多情况下,我们很难获得大量标注好的照片数据来训练AI系统,比如研究珍稀动物时照片稀少,或者在隐私敏感的场景中无法使用真实照片。在最具挑战性的测试场景中——使用从未见过的动物种类的素描来识别照片中的新关键点——该系统达到了39%的准确率。

2025-07-22 00:08:01 375

原创 约翰霍普金斯大学推出DOTRESIZE:神奇的AI模型“瘦身术“让大模型既快又好用

他们开发的DOTRESIZE技术就像是一位技艺精湛的工匠,能够识别出AI模型中那些功能相似、存在冗余的"神经元",然后运用一种叫做"离散最优传输"的数学理论,将这些神经元的功能智能地合并到更少的神经元中。为了验证DOTRESIZE的实际效果,研究团队选择了当前最流行的几个AI模型进行测试,包括Meta公司的Llama 3.1系列(8B和70B参数版本)、Mistral公司的7B和12B模型,以及微软的Phi-4 12B模型。研究团队还指出,DOTRESIZE与其他压缩技术是互补的,而不是竞争的。

2025-07-22 00:06:15 683

原创 机器人学会看图推理:约翰霍普金斯与StepFun联合突破多模态AI的“思维障碍“

更重要的是,这些提升是全面性的,不是在某个特定类型的任务上的局部优化,而是在各种不同类型的视觉推理任务中都有显著改进。特别值得注意的是,OVR在这些测试中的表现不仅仅是准确率的提升,更重要的是展现出了更强的推理稳定性和泛化能力。特别有趣的是,研究团队发现DeepSeek-R1在处理数学问题时经常会出现"心理想象"的现象,比如在纯文字推理中使用"让我想象一下这个图形"或"我需要在脑海中构建这个场景"之类的表达。这些结果表明,认知行为的迁移不仅提升了数学推理能力,也增强了AI在各种类型视觉理解任务中的表现。

2025-07-22 00:04:15 480

原创 让AI小模型也能像大模型一样思考:阿姆斯特丹大学团队发现新的“缓存驾驶“技术

研究团队选择了六个不同规模的小型模型进行测试,包括SmolLM2-360M、Llama-3.2-1B、Llama-3.2-3B、Qwen2-0.5B、Phi-4-mini和Llama-3.1-8B,这些模型就像是不同年级的学生,代表了不同的知识水平和处理能力。归根结底,这项研究为我们描绘了一个美好的前景:在不久的将来,任何人都能够通过简单的技术手段来获得强大的AI助手,这些助手不仅能够准确地回答问题,还能够以清晰的逻辑和恰当的风格来展现其思考过程。在人工智能的世界里,模型的大小往往决定了其能力的强弱。

2025-07-22 00:02:53 777

原创 VFMTok:让AI图像生成告别“拖拉慢“的时代——香港大学团队的全新突破

比如,在一张水晶球的图片中,它会发现水晶球上部的纹理和透明度具有一致性,石头上的苔藓也有相似的质地结构,然后将这些具有相似特征的区域组合在一起形成一个"区域适应性令牌"。而他们的新方法VFMTok则更加智能,它会像一个经验丰富的摄影师一样,自动识别图像中的重要区域,然后有选择性地提取这些区域的特征。郑安麟团队的突破性发现是:与其从零开始训练一个新的翻译官,不如直接使用那些已经在图像理解方面表现出色的"资深专家"——这些专家就是预训练的视觉基础模型,比如DINOv2、CLIP和SigLIP等。

2025-07-22 00:00:58 579

原创 MetaStone-AI推出反思生成模型:32B参数就能媲美OpenAI o3-mini的推理能力

研究团队设计了一个共享骨干网络,就像一个大脑的主体部分,然后在上面添加了不同的"专门头部"——一个用于生成推理过程,另一个用于评估推理质量。MetaStone-AI的研究团队给出了一个令人惊喜的答案——他们开发的MetaStone-S1模型仅用32B参数就实现了与OpenAI o3-mini相当的表现,这就像用一台家用电脑完成了原本需要超级计算机才能处理的任务。这说明模型学习到的推理评估能力具有很强的通用性,就像一个善于思考的人,即使面对陌生领域的问题,也能运用基本的逻辑推理能力做出合理判断。

2025-07-21 23:59:18 474

原创 滑铁卢大学的NeuralOS让计算机界面完全由AI生成

相比之下,没有使用光标位置映射的早期版本在水平方向的误差高达130像素,垂直方向95.8像素,这个对比清晰地证明了空间编码技术的重要性。自编码器的训练使用了重建损失和对抗损失的组合。更重要的是,很多"错误"的预测实际上可能是合理的,因为操作系统的响应时间具有一定的随机性。更神奇的是,这个系统不仅能够准确显示鼠标光标的位置,还能模拟各种应用程序的启动、窗口的打开和关闭等复杂操作。研究团队训练了一个专门的回归模型来从生成的图像中预测鼠标光标的位置,这个模型本身就具有极高的精度,测试误差仅为0.5像素。

2025-07-21 23:56:32 569

原创 一个符号就能骗过AI判官:腾讯AI实验室揭示大语言模型评估系统的惊人漏洞

更加离奇的是,AI老师对这些明显不完整的回答却给出了积极的评价。无论是中文的"解"字、日文的"かいせつ",还是西班牙语的"Respuesta",只要表达了"解答"或"解决方案"的含义,都能触发同样的错误判断。比如,推理过程的中间环节可能出现"让我重新思考一下"或"等等,我发现了一个错误"这样的反思性表达,结尾环节可能出现"综上所述"或"因此答案是"这样的总结性表达。对于普通用户而言,这项研究的启示是:在使用AI系统时,要保持适当的skepticism,不要盲目相信AI的判断,特别是在重要决策中。

2025-07-21 23:52:59 548

原创 多模态AI的视觉语言冲突危机——中科大团队揭示人工智能“看图说话“的致命盲点

以往的研究主要关注AI的回答与输入信息之间的冲突,但这项研究首次系统性地关注了输入信息本身内部的冲突问题。通过在这个数据集上测试当前最先进的多模态AI系统,包括InstructBLIP、LLaVA系列、Qwen2-VL以及GPT-4o等知名模型,研究团队发现了一个令人震惊的事实:所有被测试的模型都表现出极高的幻觉率,超过40%的情况下会产生错误的回答。然而,这些看似聪明的AI系统却存在着一个令人担忧的问题:当它们面对图片和文字信息相互矛盾的情况时,经常会产生错误的理解,甚至"编造"出根本不存在的内容。

2025-07-21 23:47:40 223

原创 MIT团队揭秘AI基础模型的“假象“:它们真的理解世界吗?

研究团队让AI模型学习一个领域的数据,然后测试它在相关但不同的任务上的表现,以此判断模型是否掌握了深层规律。他们不是简单地看模型在固定任务上的表现,而是观察模型如何将学到的知识应用到新的、相关的任务上。这种方法被称为"归纳偏差探测",就像是测试一个人是否真的理解了开车的原理,不是看他能否在熟悉的路线上开车,而是看他能否在完全陌生的城市里开车。这个发现揭示了当前AI模型的一个根本问题:它们更像是精明的"经验主义者",善于记住各种特定情况下的成功策略,而不是真正的"理论家",能够掌握支配现象的基本规律。

2025-07-21 23:46:19 342

原创 CLiFT:西蒙弗雷泽大学让虚拟现实“瘦身“的黑科技,用更少数据创造更真实的视觉体验

正如古人所说,"工欲善其事,必先利其器",CLiFT技术为虚拟现实领域提供了一把全新的"利器",相信在不久的将来,我们会看到更多基于这种技术的创新应用出现在我们的生活中。这种方法的问题显而易见。传统的虚拟现实系统就像是一个只会做满汉全席的厨师,无论客人是想要简单的快餐还是精致的正餐,它都会提供同样复杂和资源密集的体验。传统的游戏开发需要为每个场景创建大量的图形资源,这不仅需要大量的开发时间和成本,还限制了游戏的复杂度和规模。选择的标准基于光线几何信息的相似性,以及之前帧的信息,以确保渲染的时间一致性。

2025-07-21 23:45:02 415

原创 卡内基梅隆大学最新突破:告别分词器,让AI直接理解原始文本的革命性技术

来自卡内基梅隆大学和Cartesia AI的研究团队最近发表了一项开创性研究,提出了一种全新的H-Net架构,能够让AI直接处理原始的字节级数据,彻底摆脱对分词器的依赖。传统的分词器就像是一个只会按照固定尺寸切菜的老式切菜机,而H-Net则像是一个智能的机器人厨师,它能够观察食材的特性、质地和烹饪需要,然后动态决定如何切割每一种食材。H-Net的另一个重要特性是其出色的鲁棒性。A:H-Net是一种新型的语言模型架构,最大的特点是能够直接处理原始的字节级文本数据,不需要传统的分词器预处理步骤。

2025-07-21 23:43:03 195

原创 OpenAI实验模型在国际数学奥林匹克竞赛中获得金牌级表现

据Wei介绍,OpenAI一款未发布的模型能够解决这项世界上历史最悠久、最负盛名的数学竞赛中六道题目中的五道,总共获得42分中的35分。Wei在社交媒体上写道:"通过这样做,我们获得了一个能够构建精密、严密论证的模型,其水平达到了人类数学家的程度。这意味着即将推出的GPT-5相比前代产品会有所改进,但不会具备在IMO竞赛中竞争的同等令人印象深刻的能力。然而,通过最新的IMO竞赛,OpenAI表示其模型能够运用类似人类的推理能力处理复杂的数学问题。

2025-07-21 23:41:05 100

原创 AGI和AI超级智能证明智能所需回答的问题数量

(a) 40万个问题:1个问题 x 40万LCSH (b) 400万个问题:10个问题 x 40万LCSH (c) 4000万个问题:100个问题 x 40万LCSH (d) 4亿个问题:1000个问题 x 40万LCSH (e) 40亿个问题:1万个问题 x 40万LCSH (f) 400亿个问题:10万个问题 x 40万LCSH (g) 4000亿个问题:100万个问题 x 40万LCSH。这不是一个可行的方法,所以让我们抛开笼统的问题,瞄准具体的问题而不是狡黠的包罗万象的问题。那是一个巨大的问题。

2025-07-21 23:39:54 575

原创 AI在商业中的正确用量

"我们实际上不知道正确的剂量、产品的功效、副作用、毒性,甚至在使用这种药物时应该遵循什么样的正确饮食,但这种药物已经在数亿人中推广使用,"他说,并指出他的组织一直在进行一系列AI的"临床试验",有点像新药试验,实际测试采用趋势的温度,看看人们使用AI时会发生什么。"虽然AI模型的性能能力每六个月或每九个月呈指数级增长,但大多数组织的吸收能力是线性的,"他补充道。在生产力方面,他指出在一项研究中,AI的使用平均导致完成的任务增加了12.2%,任务完成速度提高了25%,任务完成质量提高了40%。

2025-07-21 23:38:43 204

原创 AnyCoder:基于Kimi K2的快速Web应用开发工具发布

该工具现已面向AI代码共享平台Hugging Face的所有用户开放,集成了实时预览、多模态输入和一键部署功能。在托管环境中,无论是缺乏技术专业知识的独立创作者,还是为客户或大型企业工作的开发人员,都可以借助Hugging Face托管的AI模型快速开始"直觉式编程"Web应用。Khaliq将AnyCoder作为Hugging Face生态系统内的个人项目开发,并将其定位为"首批支持Moonshot强大而小巧高效的Kimi K2模型的直觉式编程应用之一",该模型于上周发布。

2025-07-21 23:37:12 132

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除