​​突破Transformer架构限制​,上海交通大学发布全球首个类脑大语言模型BriLLM

部署运行你感兴趣的模型镜像

由上海交通大学计算机学院赵海教授团队研发的全球首个宏观模拟人类大脑工作机制的大语言模型BriLLM(Brain-inspired Large Language Model)近日正式发布。这一突破性成果彻底摆脱了传统Transformer架构的束缚,开创性地采用受脑科学启发的动态信号传播机制,为解决当前大模型的算力黑洞、黑箱困境和上下文限制等核心问题提供了全新思路。

​核心创新:SiFu机制颠覆传统架构​

研究团队从脑科学两大关键发现获得灵感:

  1. ​静态语义映射​​:模拟大脑皮层区域分工机制,实现语义特征分布式编码

  2. ​动态电信号传导​​:借鉴神经通路电信号流动特性,建立动态决策机制

基于此提出的SiFu(Signal Fully-connected Flowing)学习机制,构建了全新的有向图神经网络架构。该模型所有节点均具备可解释性,信号流动遵循"最小阻力原则",实现了三大突破:

  1. ​无限上下文处理​​:模型参数完全独立于序列长度,支持任意长上下文输入而无需扩容

  2. ​100%全流程可解释​​:从节点到决策过程全程透明,突破传统模型黑箱困境

  3. ​超高参数效率​​:通过低频词元边共享技术,将参数规模缩减90%,20亿参数模型性能对标初代GPT

​技术实现与性能表现​

研究团队发布了中英文两个版本:

  • BriLLM-Chinese:20亿参数(稀疏率87%)

  • BriLLM-English:10亿参数(稀疏率94.3%)

实验表明,该架构在保持较小规模的同时,展现出与Transformer架构相当的基准性能。更值得关注的是,当词表扩展至常规大模型水平(4万)时,预期参数量仅需100-200B,却可天然支持无限长上下文处理。

​未来展望:通往AGI的新路径​

BriLLM的"节点-信号"设计为多模态融合提供了天然支持:

  • 可灵活添加视觉、听觉等模态节点

  • 支持感知-运动整合的具身智能开发

  • 为构建真正类人的通用人工智能奠定基础

该项目已入选上海交通大学"交大2030"计划2025年度重点项目,获得500万元专项资助。团队表示,下一步将重点推进多模态脑启发AGI的研发工作,这一突破性架构或将成为通向通用人工智能的重要里程碑。

​相关资源​

您可能感兴趣的与本文相关的镜像

Llama Factory

Llama Factory

模型微调
LLama-Factory

LLaMA Factory 是一个简单易用且高效的大型语言模型(Large Language Model)训练与微调平台。通过 LLaMA Factory,可以在无需编写任何代码的前提下,在本地完成上百种预训练模型的微调

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值