大厂上来就手撕 Transformer，心凉了一半。。。

最新推荐文章于 2025-03-20 16:52:14 发布

原创最新推荐文章于 2025-03-20 16:52:14 发布 · 540 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#transformer #深度学习 #人工智能 #langchain #pdf #机器人 #金融

大家好，我们今天继续聊聊 AI 科技圈发生的那些特别重要的事。

内容包括：AI 科技圈最新动态和最新面经总结。

OpenAI 推出 AI 搜索引擎

OpenAI 向 Google 宣战，重磅推出 AI 搜索引擎 SearchGPT

官方链接：https://chatgpt.com/search

我跟大家总结一下 SearchGPT 特点 :

将 AI 与实时网络信息结合提供生成式UI结果
SearchGPT 结合网络最新信息可以直接回答问题，同时注明相关来源链接。
还可以像与人对话一样提出后续问题，每次查询都会构建共享的上下文。
从演示画面来看和普通AI搜索差距不大，但是标志着GPT迈入了生成式UI时代。

北大发布 Open-Sora 新版本

2024年3月份，北大推出了一个重现 Sora 的计划，席卷 AI 技术圈。

近日，北大 Open-Sora Plan v1.2 发布，在视频生成方面表现出了出色的性能。Github:https://github.com/PKU-YuanGroup/Open-Sora-Plan

该版本具备如下特点：

引入新的3D全注意力架构，提升了对物理世界的理解能力。
改进了从文本生成视频的能力。
通过新架构和优化的VAE结构，提升了视频生成的清晰度和一致性。
新的3D全注意力架构解决了之前版本无法同时处理空间和时间维度的问题。
优化后的CausalVideoVAE结构提高了模型的推理速度和性能。

Llama 3.1 发布

最强开源模型来了!Llama3.1 以405B参数领先 GPT-4o 在这里插入图片描述
官方链接：https://ai.meta.com/blog/meta-llama-3-1/

我总结一下 Llama3.1 的特点：

Llama3.1以405B参数领先GPT-4o和Claude3.5Sonnet，在性能上实现超越。
Meta大幅优化训练栈，扩展模型算力规模至16000个H100GPU，提高性能。
Llama3.1具有上下文长度扩展、多语言支持和卓越性能等技术亮点，展现出在多方面的优势。

手撕 Transformer

我们星球一球友跟我微信聊天，说最近去一家大厂面试，上来就手撕 Transformer，费了九牛二虎之力，心情凉一半。。。

这两年，特别是大模型出来后，关于 Transformer 的面试题很多，也特别新。

今天我分享18道 Transformer 高频面试题（更多专业面试题，可以文末加入我们星球或者公众号的菜单栏查看），希望对你有所帮助。

位置编码有哪些？
ViT为什么要分patch？
介绍Transformer和ViT
介绍Transformer的Q,K,V
介绍Layer Normalization
Transformer训练和部署技巧
介绍自注意力机制和数学公式
画图说明 Transformer 基本流程
介绍Transformer的Encoder模块
介绍Transformer的Decoder模块
Transformer和Mamba（SSM）的区别
Transformer中的残差结构以及意义
为什么Transformer适合多模态任务？
Transformer的并行化体现在哪个地方？
为什么Transformer一般使用LayerNorm？
Transformer为什么使用多头注意力机制？
Transformer训练的Dropout是如何设定的？
Transformer 模型中的自注意力机制是如何工作的？

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述