
深度学习
文章平均质量分 91
xwhking
一位技术狂热爱好者,欢迎交流
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Transformer的理解
Transformer模型完全基于注意力机制,没有任何卷积层或循环神经网络层。尽管Transformer最初是应用于在文本数据上的序列到序列学习,但现在已经推广到各种现代的深度学习中,例如语言、视觉、语音和强化学习领域。Transformer作为编码器-解码器架构的一个实例,其整体架构图如下展示。正如所见到的,Transformer是由编码器和解码器组成的。原创 2025-03-26 20:44:33 · 1063 阅读 · 0 评论 -
注意力机制
对于注意力机制我觉得最直观的一个理解是这样的:一个物体摆在面前,这个物体就可以认为是上面所说的一个值(Value,V),然后这个物体有一定的自然属性,这就是他的键(Key,K),本身键和值是一一对应的,而当我们加上一定的主观意识(我们平时生活中遇到这个物体时能够经历的一些过程),这个意识就是查询(Query,Q),加上意识以后经过我们大脑的一个处理,我们脑中就会形成对于这个物体的另外一个认识(值(幸运的是,人类的祖先已经从经验(也称为数据)中认识到“并非感官的所有输入都是一样的”。这里重点解释一下为什么。原创 2025-03-26 19:41:20 · 707 阅读 · 0 评论 -
消融实验(Ablation Study)
消融实验是一种科学研究方法,通过逐步移除模型、算法或系统中的某个组件(如模块、层、特征、数据等),观察其对整体性能的影响,从而验证该组件的必要性和有效性。其名称来源于医学领域的“消融术”(切除部分组织以研究功能),在计算机视觉、机器学习和深度学习中被广泛用于分析模型设计。原创 2025-03-18 22:13:15 · 1430 阅读 · 0 评论 -
线性回归从0到1实践
线性回归从0到1实践原创 2025-01-05 21:54:22 · 1039 阅读 · 2 评论