带你读论文第十期:上海人工智能实验室、ICCVW最佳论文奖,钟怡然博士分享...

 Datawhale论文 

来源:WhalePaper,负责人:芙蕖

WhalePaper简介

由Datawhale团队成员发起,对目前学术论文中比较成熟的 Topic 和开源方案进行分享,通过一起阅读、分享论文学习的方式帮助大家更好地“高效+全面+自律”学习,让大家都有所收获和提升!方向包括自然语言处理(NLP)、计算机视觉(CV)、推荐(Res)等相关方向的论文解读和分享,后续将融入更多的方向。

开源地址:https://datawhalechina.github.io/whale-paper

本期活动

29bf3f9f0d9f32ace0f1c4412050fd51.png

嘉宾简介

钟怡然为上海人工智能实验室青年科学家,新架构探索组PI,负责新一代非Transformer架构的高效大语言模型架构研发和视听语言多模态融合。在此之前,其在上海商汤智能科技有限公司担任高级经理职位,负责大语言模型、多轮对话以及多模态融合相关研究。其博士毕业于澳洲国立大学,师从李宏东教授和Richard Hartley院士。在国际顶级会议和权威期刊发表40余篇论文,包括TPAMI、IJCV、IEEE TIP、CVPR、NeurIPS、ECCV、ICCV、ICLR、EMNLP等,并拥有多项美国专利。成果获得了国际学术界与工业界的广泛关注,引用2200余次。获得了2023 ICCVW最佳论文奖、2014 ICIP的最佳学生论文奖。

分享详情

论文题目:

Lightning Attention-2: A Free Lunch for Handling Unlimited Sequence Lengths in Large Language Models

联合分享:OpenNLPLab

论文简介:

近年来,线性注意力作为传统 softmax 注意力的一种高效替代方案,引起了人们的广泛关注。线性注意力能够以线性的计算复杂度处理标记,理论上可以处理长度无限的序列而不损失速度,即在固定内存消耗的情况下,保持各种序列长度的恒定训练速度。然而,由于当前线性注意力算法在因果设置中的累积求和问题,无法展示其理论优势。本文介绍了 Lightning Attention-2,这是第一个实现了线性注意力理论计算优势的线性注意力实现。为了实现这一目标,我们借鉴了平铺的思想,分别处理线性注意力计算中的内部块和外部块组件。具体而言,我们利用传统的注意力计算机制处理内部块,并将线性注意力内核技巧应用于外部块。通过在前向和后向过程中采用平铺技术,充分利用了 GPU 硬件。我们将算法实现在 Triton 中,使其具备 IO 感知能力和硬件友好性。我们在不同的模型大小和序列长度上进行了各种实验。Lightning Attention-2 在输入序列长度不同的情况下保持了一致的训练和推理速度,并且显著快于其他注意力机制。

论文地址:https://arxiv.org/abs/2401.04658

分享时间:2024年4月17日(周三)19点

本场分享会在视频号、b站同步直播

进群参与

15191d619a1f1e50ee18e56e6b43d144.jpeg

群满在公众号后台回复“paper”

a4893532c6c8f27a8bf250aae62e621f.png

一起“赞”三连

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值