最强基座模型 GLM-130B:万亿参数规模下的技术突破 关键词:GLM-130B 架构设计, 混合精度训练, MoE 扩展策略, 分布式并行优化, 万亿参数推理 1. GLM-130B 架构设计精髓 GLM-130B 采用 General Language Model 统一框架,实现编码器-解码器双向注意力机制与自回归生成能力的融合: