【八股文】算法岗位八股文、深度学习、AIGC八股文面试经验（二）

深度学习模型详解

最新推荐文章于 2024-10-23 10:09:41 发布

原创最新推荐文章于 2024-10-23 10:09:41 发布 · 1k 阅读

34 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #AIGC #面试 #python #开发语言 #人工智能 #职场和发展

部署运行你感兴趣的模型镜像

简单介绍一下 BERT 和 Transformer
Attention 和 self-attention 有什么区别？
Transformer 的复杂度
Bert 用的什么位置编码，为什么要用正弦余弦来做位置编码？还知道其他哪些位置编码？
除了 bert 还做过哪些模型的微调？
为什么现在的大模型大多是 decoder-only 的架构？
讲一下生成式语言模型的工作机理
用过 LoRA 吗？讲一下原理？

Transformer 结构和 LSTM 的区别和优势，Transformer 怎么体现时序信息？
Transformer Encoder 和 Decoder 的输入输出和结构
BatchNorm 更多用在视觉上，LayerNorm 更多用在语言上，为什么
有没 chatGLM，LLaMA 等部署、微调经历？
有没有了解过大模型加速推理？
讲一下 Flash Attention?

您可能感兴趣的与本文相关的镜像