
8月31日,我们印象中做外卖的公司——美团(Meituan),扔出了一颗重磅炸弹。他们正式发布了一款名为LongCat-Flash的模型。一个拥有5600亿总参数的庞然大物,一家外卖巨头,一出手就是王炸。

LongCat-Flash不仅仅是参数量大,它背后那套创新的动态计算机制和高效的训练推理架构,给整个行业带来了全新的解题思路。
巨无霸的身材,却有颗精打细算的心
LongCat-Flash参数规模高达5600亿,听起来就非常“耗电”。但它的高明之处在于,你不需要在每次问答时都调动这5600亿个“大脑神经元”。通过一套创新的动态计算机制,在实际处理你的问题时,它只会激活其中186亿到313亿的参数,平均下来也就270亿左右。
这是什么概念呢?就好比你拥有一个由5600位专家组成的智囊团,但每次开会解决问题,你只需要根据议题的难度,请来最相关的十几位或几十位专家就够了。这样一来,既保证了问题的解决质量,又极大地节省了开会成本。
这个设计的核心,被美团官方称为“零计算专家机制”(Zero-Computation Experts Mechanism)。它允许模型自己判断每个词(token)的重要性。遇到简单的、不那么关键的词,模型就把它交给“零计算专家”处理,几乎不消耗计算资源,就像是前台收发一下文件;而遇到复杂的、关键的词,模型则会唤醒相应的“领域专家”网络,进行深度思考和处理。这种能屈能伸、张弛有度的设计,让LongCat-Flash实现了超过每秒100个token的惊

最低0.47元/天 解锁文章
144

被折叠的 条评论
为什么被折叠?



