- 博客(5)
- 收藏
- 关注
原创 多头潜在注意力(MLA)原理
MLA是一种改进的注意力机制,旨在提高自然语言处理(NLP)模型的推理效率和性能。它通过低秩联合压缩键(Key)和值(Value),减少推理过程中所需的内存和计算资源,从而实现更高效的处理。
2025-03-19 12:32:51
810
原创 PyTorch深度学习第一章学习笔记
过去10年,被称为机器学习的一类系统重度依赖于特征工程。特征是对输入数据的转换,它有助于下游算法(如分类器)在新数据上产生真确的结果。特征工程包括提出正确的转换,它有助于下游算法完成任务。为了在手写数字的图像中区分0和1,可以利用一组滤波器来判断图像边缘方向,训练一个分类器,在给定边缘方向分布的情况下预测正确的数字。深度学习实现的是从原始数据中自动找到这样的表征,以便成功执行任务。在区分1和0的例子中,滤波器会在训练中通过迭代地查看成对的例子和目标标签来改进。
2025-01-16 22:03:45
1471
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人