突破Transformer架构限制，上海交通大学发布全球首个类脑大语言模型BriLLM

原创于 2025-08-14 17:28:32 发布 · 1.5k 阅读

·

31

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #机器学习 #大模型 #大语言模型 #transformer

科研前沿速递同时被 2 个专栏收录

77 篇文章

订阅专栏

优秀论文拆解

22 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

由上海交通大学计算机学院赵海教授团队研发的全球首个宏观模拟人类大脑工作机制的大语言模型BriLLM（Brain-inspired Large Language Model）近日正式发布。这一突破性成果彻底摆脱了传统Transformer架构的束缚，开创性地采用受脑科学启发的动态信号传播机制，为解决当前大模型的算力黑洞、黑箱困境和上下文限制等核心问题提供了全新思路。

核心创新：SiFu机制颠覆传统架构

研究团队从脑科学两大关键发现获得灵感：

静态语义映射：模拟大脑皮层区域分工机制，实现语义特征分布式编码
动态电信号传导：借鉴神经通路电信号流动特性，建立动态决策机制

基于此提出的SiFu（Signal Fully-connected Flowing）学习机制，构建了全新的有向图神经网络架构。该模型所有节点均具备可解释性，信号流动遵循"最小阻力原则"，实现了三大突破：

无限上下文处理：模型参数完全独立于序列长度，支持任意长上下文输入而无需扩容
100%全流程可解释：从节点到决策过程全程透明，突破传统模型黑箱困境
超高参数效率：通过低频词元边共享技术，将参数规模缩减90%，20亿参数模型性能对标初代GPT

技术实现与性能表现

研究团队发布了中英文两个版本：

BriLLM-Chinese：20亿参数（稀疏率87%）
BriLLM-English：10亿参数（稀疏率94.3%）

实验表明，该架构在保持较小规模的同时，展现出与Transformer架构相当的基准性能。更值得关注的是，当词表扩展至常规大模型水平（4万）时，预期参数量仅需100-200B，却可天然支持无限长上下文处理。

未来展望：通往AGI的新路径

BriLLM的"节点-信号"设计为多模态融合提供了天然支持：

可灵活添加视觉、听觉等模态节点
支持感知-运动整合的具身智能开发
为构建真正类人的通用人工智能奠定基础

该项目已入选上海交通大学"交大2030"计划2025年度重点项目，获得500万元专项资助。团队表示，下一步将重点推进多模态脑启发AGI的研发工作，这一突破性架构或将成为通向通用人工智能的重要里程碑。

相关资源

论文地址：https://arxiv.org/pdf/2503.11299
GitHub开源：https://github.com/brillm05/BriLLM0.5
模型权重：https://huggingface.co/BriLLM/BriLLM0.5

您可能感兴趣的与本文相关的镜像

Llama Factory

Llama Factory

模型微调

LLama-Factory

LLaMA Factory 是一个简单易用且高效的大型语言模型（Large Language Model）训练与微调平台。通过 LLaMA Factory，可以在无需编写任何代码的前提下，在本地完成上百种预训练模型的微调

AI算力推荐

Llama Factory

LLaMA Factory 是一个简单易用且高效的大型语言模型（Large Language Model）训练与微调平台。通过 LLaMA Factory，可以在无需编写任何代码的前提下，在本地完成上百种预训练模型的微调

模型微调

LLama-Factory

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。