我是丁师兄,专注于智能驾驶大模型,持续分享LLM面试干货。
大模型1v1辅导,已帮助多名同学成功上岸
去面试大模型岗位,百度面试官一脸严肃地问:“Sparse Attention 如何与长文本进行结合?你心里一慌,这题超纲啦!
突然你灵机一动,回答:“就像给长文本找个“保姆”,Sparse Attention 负责挑重点照顾,让长文本不再“任性乱跑”。
面试官忍不住笑了,你却心里慌得一比....现在咱们正式来探讨这个问题~
01面试官心理
这是一道经典的面试题,Sparse Attention 如何与长文本进行结合?
面试官问这个问题,主要是想看看,你有没有关注过相关的 paper,了不了解相关的算法?以及能不能说清楚其核心思想?
同时这道题目还可以做多个 follow up,看看候选人的横向思考和实际解决问题的能力。
02面试题解析
所以针对这个问题呢,你可以给面试官介绍一种通过稀疏注意力机制,为更长的序列构建 Transformer 的算法,叫做 BigBird 稀疏 Attention。
然后详细讲讲它是怎么做到和长文本结合的?
我们结合图来看,BigBird 主要包含三部分:<