详细说说:长文本和Sparse Attention的结合有哪些?

我是丁师兄,专注于智能驾驶大模型,持续分享LLM面试干货。

大模型1v1辅导,已帮助多名同学成功上岸


去面试大模型岗位,百度面试官一脸严肃地问:“Sparse Attention 如何与长文本进行结合?你心里一慌,这题超纲啦!

突然你灵机一动,回答:“就像给长文本找个“保姆”,Sparse Attention 负责挑重点照顾,让长文本不再“任性乱跑”。

面试官忍不住笑了,你却心里慌得一比....现在咱们正式来探讨这个问题~

01面试官心理

这是一道经典的面试题,Sparse Attention 如何与长文本进行结合?

面试官问这个问题,主要是想看看,你有没有关注过相关的 paper,了不了解相关的算法?以及能不能说清楚其核心思想?

同时这道题目还可以做多个 follow up,看看候选人的横向思考和实际解决问题的能力。

02面试题解析

所以针对这个问题呢,你可以给面试官介绍一种通过稀疏注意力机制,为更长的序列构建 Transformer 的算法,叫做 BigBird 稀疏 Attention。

然后详细讲讲它是怎么做到和长文本结合的?

我们结合图来看,BigBird 主要包含三部分:<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值