【八股文】算法岗位八股文、深度学习、AIGC八股文面试经验(二)

简单介绍一下 BERT 和 Transformer
Attention 和 self-attention 有什么区别?
Transformer 的复杂度
Bert 用的什么位置编码,为什么要用正弦余弦来做位置编码?还知道其他哪些位置编码?
除了 bert 还做过哪些模型的微调?
为什么现在的大模型大多是 decoder-only 的架构?
讲一下生成式语言模型的工作机理
用过 LoRA 吗?讲一下原理?

Transformer 结构和 LSTM 的区别和优势,Transformer 怎么体现时序信息?
Transformer Encoder 和 Decoder 的输入输出和结构
BatchNorm 更多用在视觉上,LayerNorm 更多用在语言上,为什么
有没 chatGLM,LLaMA 等部署、微调经历?
有没有了解过大模型加速推理?
讲一下 Flash Attention?

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值