大语言模型
八月的冰可乐
关注我~会听见不一样的声音
欢迎关注公众号:藉秋风
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
一文搞懂Transformer四大核心组件
本文解析了Transformer模型的四大核心组件:1. 层归一化(LayerNorm) - 通过归一化特征值稳定深层网络训练,突破12层限制;2. GELU激活函数 - 采用概率化激活方式处理语言模糊性,使数据更平滑;3. 前馈神经网络 - 通过维度扩展/压缩增强表示能力,保持输入输出维度一致;4. 快捷连接 - 防止梯度消失,确保深层网络的有效训练。这些组件协同工作,解决了深层网络训练中的梯度问题,使Transformer能够实现千层级的有效训练。原创 2026-01-04 18:45:33 · 350 阅读 · 0 评论 -
《普通 RAG》对比《 GraphRAG 》
普通RAG VS GraphRAG原创 2025-01-25 11:05:40 · 309 阅读 · 0 评论
分享