文章阅读
文章平均质量分 83
MJJ_
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
从零构建大模型 Build a large language model from scratch by Sebastian Raschka 阅读笔记
本文介绍了大模型的核心技术,包括文本数据处理、注意力机制和GPT模型实现。文本预处理将离散符号转化为连续向量嵌入,使神经网络可处理。注意力机制通过查询、键、值矩阵计算上下文相关性,采用多头设计和因果掩码提升性能。GPT模型实现展示了架构细节,包括嵌入层、层归一化和残差连接等关键技术。原创 2025-10-14 22:47:31 · 1372 阅读 · 5 评论 -
ICLR2017文章:使用一个噪声适应层训练标签有噪声的深度神经网络
文章标题:TRAINING DEEP NEURAL-NETWORKS USING A NOISE ADAPTATION LAYER, Jacob Goldberger & Ehud Ben-Reuven Engineering Faculty, Bar-Ilan University原创 2018-11-22 15:23:30 · 2732 阅读 · 0 评论
分享