自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 阿里面试官问:什么是softmax 上下溢出问题?

大模型量化是指对大规模机器学习或深度学习模型进行的一种优化技术,旨在减少模型的计算需求和内存占用,同时尽量保持模型的性能。然而,量化也可能导致模型性能的下降,因此研究如何在量化过程中最小化精度损失是一个重要的课题。为此,研究人员开发了多种量化策略和技术,包括但不限于感知量化、量化感知训练等方法,以确保量化后的模型能够尽可能地保持原有的性能水平。量化的关键点是计算zero point和scale以确保量化后的值在目标数据类型的表示范围内,否则需要截断,会损失数据的精度。量化的核心是数值从高精度变为低精度。

2025-03-30 11:46:02 306

原创 阿里面试官问:为什么Transformer的FFN需要升维再降维?

阿里面试官问:为什么Transformer的FFN需要升维再降维?

2025-01-05 14:32:42 1003

原创 面试官问:大模型领域,有哪些提高大规模模型的训练和推理效率库?

面试官问:大模型领域,有哪些提高大规模模型的训练和推理效率库?

2025-01-05 14:30:10 700

原创 面试官问:深度网络中loss除以10和学习率除以10等价吗

对于带有自适应学习率的优化器(如Adam、RMSprop), loss缩放与学习率调整并不等价。对于经典的SGD和Momentum SGD,将 loss乘以常数等价于将学习率乘以相同的常数。因此,在不同的优化器中,如何调整 loss和学习率需要具体分析,不能一概而论。#spss统计分析 #数据分析

2025-01-05 10:08:05 1055

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除