pytorch学习与经验总结
文章平均质量分 73
本栏主要针对pytorch一些文章
666-修远
喜欢琢磨东西,发现规律,提炼规律,总结规律
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
02-tranform的理解
单头注意力是基础的注意力计算单元,而多头注意力通过 "分而治之" 的策略,在不显著增加计算量的前提下,让模型能学习到更丰富、更多样的注意力模式,从而提升对序列数据的理解能力。在 Transformer 的原始实验中,多头注意力(如 8 头)在机器翻译等任务上的表现显著优于单头注意力,证明了其在捕捉复杂依赖关系上的优势。单头注意力只能学习一种全局的注意力分布,而多头可以并行学习不同的 "子注意力模式"。==================个人的一些总结=============豆包答案 ===原创 2025-09-08 16:21:20 · 907 阅读 · 0 评论 -
paddlepaddle-gpu=2.6.1.post120 安装
1:注意,共享内存要大于2G,最好设8G;(--shm-size=2g)======如果出现一下内容,如果 没有GLIBCXX_3.4.30。物理机cuda12.0以上版本,我的是12.2。原创 2024-11-19 10:28:15 · 1135 阅读 · 0 评论
分享