- 博客(12)
- 收藏
- 关注
原创 全新的训练算法:Reflection 70B进入大众的视野
在2024年9月6日,大模型的圈子迎来了一位新成员——Reflection 70B,它横扫了MMLU、MATH、IFEval、GSM8K等知名的模型基准测试,完美超越了GPT-4o,同时也超越了Claude3.5 Sonnet成为了新的大模型之王,Reflection 70B到底是什么来头?它为什么能超越GPT-4o呢?
2024-09-10 18:39:59
1071
1
原创 4万亿个晶体管,Cerebras发布了号称世界上最快的芯片
Cerebras可能大家并不是特别熟悉,它们一直在研发特大号的芯片,就比如它们发布的晶圆级引擎跟一个iPad还大。此次发布的 WSE-3 是专为训练业界最大的 AI 模型而打造的,基于 5 纳米、4 万亿晶体管的 WSE-3 将为 Cerebras CS-3 人工智能超级计算机提供动力,通过 90 万个人工智能优化的计算核心,提供每秒 125 petaflops 峰值 AI 性能(1 petaflops 是指每秒 1,000,000,000,000,000(1 万亿)次浮点运算)。
2024-08-29 08:37:55
667
原创 ExAvatar: 通过简短视频克隆人像并转化为3D数字形象
SMPL-X是一种参数化的模型,它可以用来表示人体的不同形状和姿势,包括面部表情和手部动作。它由德国马普研究所开发,旨在解决过去模型中缺失的手部和面部细节的问题。形状参数:控制人体的体型,如身高、体重、体态等。姿势参数:控制身体各部位的姿态。面部表情参数:控制面部的形态变化。手部参数:控制手部的姿势。
2024-08-11 19:41:39
1600
原创 MUSCLE:Apple研发,解决了模型每次更新后出现的结果不一致问题
根据提供的PDF文档内容,"负翻转"(Negative Flips)是指在更新大型语言模型(LLMs)时出现的一种现象,即原本由旧模型正确预测或生成的实例,在新模型上变成了错误的预测或生成。这种现象对于用户来说可能会导致困惑和不满意,因为他们需要不断地适应新的模型行为。负翻转的具体含义定义:负翻转是指之前正确预测或生成的实例,在模型更新后变成了错误的预测或生成。影响:这可能导致用户对模型的信任度下降,尤其是当用户已经对旧模型的行为有了心理预期时。观察。
2024-07-25 14:59:57
1138
原创 小模型竞争开始:Mistral AI与NVIDIA联手推出Mistral NeMo模型
这次Mistral和NVIDIA联合推出的Mistral- NeMo拥有120亿的训练参数和128K的上下文窗口,所以它的推理、世界知识和编码准确性在其尺寸类别中是最先进的。而且Mistral-NeMo还是基于标准架构的,所以Mistral-NeMo的兼容性很高,而且可以在任何使用Mistral-7B的系统中置换。下表比较了 Mistral NeMo 基础模型与两个最近的开源预训练模型 Gemma 2 9B 和 Llama 3 8B 的准确性。
2024-07-23 09:37:52
1394
原创 大模型集体翻车:大模型的推理原理
在最近,有人使用生成式AI来比较9.11和9.9哪个数字更大,结果大模型们给出的答案让人大跌眼镜,许多知名的生成式AI全部答错,认为9.11比9.9大,包括Google Gemini、GPT-4o、Claude3.5等一众大模型全部答错:-- Gemini在后续修复了这个问题-->从以上的结果可以得知,大模型们在面对这个问题时,就是在一本正经地胡说八道,GPT-4o甚至给出了“1比9小,所以要比较到下一位”的荒唐结论,本文将讲解AI大模型的推理的过程与原理。
2024-07-21 08:51:05
1667
原创 67M大模型比肩万亿参数的GPT-4,微软MIT等破解transformer密码
这次这个67M的大模型的测试结果很令人意外,在此前,因果推理一直是模型训练中一个比较冷门的方面,不过这次研究证明了因果推理在Transformer领域也是一个可行的方案。探索因果推理的世界不仅揭示了人工智能领域的一个重要方面,而且强调了如何通过创新的方法,如公理训练,来增强机器的学习能力。本博客深入研究了因果推理的研究进展,尤其是Transformer模型在学习因果规则方面的潜力。我们看到了通过演示因果公理,模型能够推断出新的因果关系,并在多种场景下展现出令人鼓舞的泛化能力。
2024-07-16 15:11:29
1218
原创 Deepmind发布新方法JEST:训练时间减少13倍,算力需求节省90%
其次是训练时间长,OpenAI用了13万亿个token训练出了GPT-4,用了25000个A100训练了90到100天,而且利用率在32%到36%之间,故障数量过多也是极低利用率的原因,这会导致需要重新从之前的检查点开始训练。最近Google的人工智能团队发布了全新的数据训练方法——JEST,这种训练方法能够让训练时间减少13倍,让所消耗的算力降低90%,这无疑对AI领域是一个巨大的好消息,具体原因将在下文中具体展示。预处理的目的是减少模型需要处理的数据复杂性,使模型能够更好地学习文本的语义。
2024-07-13 11:51:21
1503
原创 浦语灵笔InternLM2.5-7B发布,在数学推理方面超越 Llama3 和 Gemma2-9B
浦语·灵笔2.5是基于书生·浦语2大语言模型研发的突破性的图文多模态大模型,仅使用 7B LLM 后端就达到了 GPT-4V 级别的能力。浦语·灵笔2.5使用24K交错的图像-文本上下文进行训练,通过RoPE外推可以无缝扩展到96K长的上下文。这种长上下文能力使浦语·灵笔2.5在需要广泛输入和输出上下文的任务中表现出色其具有以下特性:卓越的推理性能:在数学推理方面取得了同量级模型最优精度,超越了 Llama3 和 Gemma2-9B。
2024-07-09 19:42:18
1594
原创 骁龙X Elite发布,Windows on Arm再添新成员
自古以来,Windows笔记本续航时间过短的问题一直存在,而伴随着Apple silicon中出现桌面端处理器M系列,这个问题无疑被放大了,越来越多的用户或媒体开始将笔记本续航的标杆视为MacBook。
2024-07-07 19:19:51
1603
原创 Google推出Gemma 2.0,Gemma家族迎来全新一员
自从bard后,Gemini家族成为了Google公司的当家大模型,不过Google为了给开源社区贡献创新,于是用Gemini模型的相同研究和技术构建了Gemma,Gemma这个名字反映了拉丁语“gemma”,意思是宝石,以支持开发人员创新,促进协作,并指导负责任地使用Gemma模型。GemmaGeminigemma------摘自不仅只有Gemma,Google还在其基础上衍生出了CodeGemma、RecurrentGemma和PaliGemma。
2024-07-06 22:15:50
2004
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人