中国科学院自动化研究所的李国齐、徐波团队发布全球首款大规模类脑脉冲大模型SpikingBrain 1.0。

处理一段400万token的超长文本,它的速度比现在主流的Transformer模型快了100多倍。更离谱的是,它的训练数据量,只有别人家的2%。
大模型,要换个脑子了?
我们今天用的大语言模型,比如GPT系列,基本都构建在Transformer架构上。这套架构的核心是自注意力机制,非常强大,但有个致命的问题:计算复杂度。
简单说,你给它的文本长度增加一倍,它的计算量不是增加一倍,而是暴增到四倍,也就是二次方(O(n²))关系。处理长文本时,它就像一辆陷入泥潭的跑车,不仅慢,还巨耗油(显存和能耗)。
这就是为什么我们很难让AI一次性读完一部长篇小说或者分析一整套法律卷宗。成本太高,效率太低。
中科院的科学家们把目光投向了自然界最牛的智能系统——人脑。
人脑里有千亿级的神经元,连接数量更是天文数字,但它的功耗只有区区20瓦,比你家灯泡还省电。
团队提出了一个概念,把现在堆料的Transformer路线叫做“基于外生复杂性”,就是靠外部的堆砌来提升性能。而他们走的路叫“基于内生复杂性”,意思是把功夫花在单元内部,让每一个“神经元”本身就更聪明、更高效,师从大脑。
SpikingBrain,一套从里到外的颠覆
SpikingBrain(瞬悉)的核心,就是用一套全新的架构,模拟大脑神经元的工作方式。它有两个版本,一个70亿参数的SpikingBrain-7B,一个760亿参数的SpikingBrain-76B。
中科院发布类脑大模型SpikingBrain

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



