
Mamba
文章平均质量分 96
敢敢のwings
欢迎来到「敢敢のwings」!本人是一位前自动驾驶的具身智能行业从业人员,著有《从ROS1到ROS2无人机编程实战指南》一书。作为阿里云专家博主、华为云享专家、古月居优秀创作者及签约作者、优快云博客专家,握有多篇发明专利授权和SCI、EI论文。之前主要侧重机器人运动学、定位感知算法、深度学习研究,目前主要关注端到端、具身智能等方面,平时涉猎较广。正在努力成长并胜任架构师的角色!有商务合作或咨询需求可站内私信,或关注我团队的微信公众号【敢敢AUTOHUB】以及微信【mpl9725440】。
展开
-
Mamba以及我们看的第一篇MambaOcc
深度学习架构有很多,但近些年最成功的莫过于 Transformer,其已经在多个应用领域确立了自己的主导地位。如此成功的一大关键推动力是注意力机制,这能让基于 Transformer 的模型关注与输入序列相关的部分,实现更好的上下文理解。但是,注意力机制的缺点是计算开销大,会随输入规模而二次增长,也因此就难以处理非常长的文本。而Mamba的出现则是解决了这个问题,通过结构化的状态空间序列模型(SSM)。该架构能高效地捕获序列数据中的复杂依赖关系,并由此成为 Transformer 的一大强劲对手。原创 2024-09-30 16:03:03 · 7721 阅读 · 0 评论 -
一文通透想颠覆Transformer的Mamba:从SSM、HiPPO、S4到Mamba
不知读者发现没有,本文标题的信息含量很大,比如出来了一个新的序列模型:Mamba,其基于SSM或S4发展为S6(selectionscan),其对应的论文为《该Mamba模型的提出者为Albert Gu、Tri Dao,前者现在是CMU助理教授,多年来一直推动SSM架构发展,曾在DeepMind 工作,后者则为鼎鼎大名的Flash Attention一作换言之,除了论文中展示的效果确实不错之外,由于提出者的背景不一般,所以关注的人比较多。转载 2024-09-07 16:00:14 · 544 阅读 · 0 评论