详细说说：长文本和Sparse Attention的结合有哪些？

丁师兄大模型

于 2024-09-25 19:40:44 发布

阅读量990

点赞数 18

CC 4.0 BY-SA版权

分类专栏：大模型面试大模型文章标签： transformer 深度学习人工智能 AIGC 语言模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/dsxaigc/article/details/142531332

我是丁师兄，专注于智能驾驶大模型，持续分享LLM面试干货。

大模型1v1辅导，已帮助多名同学成功上岸

去面试大模型岗位，百度面试官一脸严肃地问：“Sparse Attention 如何与长文本进行结合？你心里一慌，这题超纲啦！

突然你灵机一动，回答：“就像给长文本找个“保姆”，Sparse Attention 负责挑重点照顾，让长文本不再“任性乱跑”。

面试官忍不住笑了，你却心里慌得一比....现在咱们正式来探讨这个问题~

01面试官心理

这是一道经典的面试题，Sparse Attention 如何与长文本进行结合？

面试官问这个问题，主要是想看看，你有没有关注过相关的 paper，了不了解相关的算法？以及能不能说清楚其核心思想？

同时这道题目还可以做多个 follow up，看看候选人的横向思考和实际解决问题的能力。

02面试题解析

所以针对这个问题呢，你可以给面试官介绍一种通过稀疏注意力机制，为更长的序列构建 Transformer 的算法，叫做 BigBird 稀疏 Attention。

然后详细讲讲它是怎么做到和长文本结合的？

我们结合图来看，BigBird 主要包含三部分：<

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。