
新技术解读
文章平均质量分 91
针对人工智能领域和大数据领域的最新技术进行跟踪以解读,力求采用最轻松的模式进行解读。
庞德公
多年来在人工智能、数据和技术领域兜兜转转,拥有较强的行业洞察力和技术前瞻力。精通数据流通与数据空间技术,高并发、分布式计算、隐私计算、区块链和自然语言处理技术。
展开
-
资料导览(持续更新)
行文风格多变。清新而不脱俗,深入但又浅出。跟踪而不跟风,细腻但又抽象。给大家带来大模型领域乃至其他科技领域的最轻松但又最潮的独特解读。整体遵从条线分割,纵横交错的网线在编织内容。原创 2024-06-29 23:06:36 · 446 阅读 · 0 评论 -
Jamba前生今世:1.5开源来袭
近日AI21 Labs发布Jamba 1.5系列开放模型,包括Jamba 1.5 Mini和Jamba 1.5 Large,这些模型建立在新颖的SSM-Transformer架构之上,某种意义上也算是AI技术的突破。原创 2024-08-24 08:57:12 · 1098 阅读 · 0 评论 -
FlashAttention3:“GEMM”就是比较快!
FlashAttention-3比使用FP16的FlashAttention-2 快1.5-2.0倍,即H100理论最大FLOPS利用率为 75%。使用FP8 时,FlashAttention-3 达到接近 1.2 PFLOPS。原创 2024-07-15 22:09:20 · 1844 阅读 · 0 评论 -
Mojo: AI开发的革命性编程语言
Mojo设计理念的核心在于巧妙地利用多级中间表示 (MLIR),这是一个强大的框架,可在各种AI硬件架构之间实现无缝可扩展性。通过巧妙地利用MLIR,Mojo消除了对复杂且容易出错的硬件的代码优化的需求,使开发人员能够充分利用AI硬件的潜力原创 2024-07-02 09:34:19 · 1102 阅读 · 0 评论 -
白话EAGLE2:解锁大模型的“打草稿”技术
EAGLE-2是一种加速大型语言模型(LLM)推理过程的技术。具体来说,它采用了基于推测性采样(speculative sampling)的技术,它通过引入动态草稿树和草稿模型的置信度分数来提高LLM的推理效率。EAGLE-2能确保模型生成的文本概率分布不变,也使得其成为一种无损加速算法。原创 2024-06-28 13:08:24 · 2980 阅读 · 0 评论 -
俯视LLM的灵魂:一文搞懂稀疏自动编码器
稀疏自动编码器 (SAE) 最近因机器学习模型的可解释性而变得流行(尽管SAE自 1997 年以来一直存在)。机器学习模型正LLMs变得越来越强大和有用,但它们仍然是黑匣子,如何看穿LLM的灵魂。原创 2024-06-27 23:04:51 · 3180 阅读 · 0 评论 -
Mamba v2诞生:3 SMA与Mamba-2
在开始之前提醒下读者,在Mamba不再真正认为SSM是连续的。事实上,正如在原始论文的讨论,Mamba与S4在对不同类型的数据进行建模方面进行了权衡:S4 是一种连续时间模型,擅长对连续数据进行建模,例如音频波形和像素级视觉等感知信号。Mamba S6是一种离散时间模型,擅长对离散数据进行建模,例如语言等标记化数据。原创 2024-06-09 19:12:01 · 1790 阅读 · 0 评论 -
Mamba v2诞生:2 那些烧脑的矩阵们
Mamba的出现为带来了全新的思路和可能性,通过对结构化半可分离矩阵的各种分解方法的理论研究,可以将状态空间模型SSM与注意力机制Attention的变种进行紧密关联,进而提出一种状态空间对偶SSD的理论框架。原创 2024-06-07 21:18:18 · 2810 阅读 · 1 评论 -
Mamba v2诞生:1 儒(Transformers)释(SSD)道(Mamba)本是一家?!
状态空间对偶使得研究人员设计一种新的架构 (Mamba-2),其核心层是对 Mamba(选择性SSM)进行改进,速度提高了2-8倍,同时在语言建模方面能够保持对Transformers的压力。原创 2024-06-05 21:46:34 · 2092 阅读 · 0 评论 -
Mamba:7 VENI VIDI VICI
序列模型的效率与有效性之间的权衡取决于状态编码(压缩)的程度:追求高效性一定要求具有较小的状态,追求有效性一定要求状态包含更多的上下文信息。而在Mamba中的指导思想是选择性:或者重点关注,或者过滤掉无关的输入从而具备较强的的上下文感知能力。原创 2024-05-16 08:06:29 · 1719 阅读 · 2 评论 -
Mamba:6 线性RNN
正如Mamba论文中所指出的,其原因是线性RNN无法选择性地忘记输出向量中的信息。如果权重接近 0,则每次输入后输出向量将设置为0,实际上模型将始终立即忘记当前输入之前的任何内容。如果权重接近1,则输出向量在与权重相乘时不会改变,因此输出向量将累积来自观察到的所有输入的信息。然而对于自然语音模型而言是需要它能够根据看到的输入来决定何时存储信息以及何时忘记信息。不过整体而言,线性RNN将RNN拉回了生死线。原创 2024-05-12 18:46:16 · 1479 阅读 · 1 评论 -
Mamba:5 并行扫描
Mamba自从出道就一直被拿来和Transformer对比,文章巨多,带着标题的爆炸性字样“颠覆Transfomer”,“全面包围”等等。文章深浅不一,小编认为其背后的设计思路以及演化过程更加重要。为此本专题将从山上有座庙开始,沿着RNN、SSM、S4、HIPPO一路走来。期间抛弃冗杂的文辞,以更接地气的模式协助读者打开新的逻辑思维。原创 2024-05-11 20:29:36 · 2713 阅读 · 1 评论 -
Mamba:4 魔幻矩阵A
本文讨论了S4和魔幻矩阵A背后的一些数学原理,核心技术就是在线函数逼近。魔幻矩阵A是为了求解ODE而推导出来,通过求解ODE可以得到这一时刻的线性组合的系数。将连续ODE离散化为离散序列,可以得到RNN。通过改良的RNN能够记住过往的历史,然而计算效率不高,比如16000个时间步,需要运行矩阵乘法16000次。下文将开展S4剩余的部分进行讲解。原创 2024-05-09 14:38:34 · 1098 阅读 · 0 评论 -
Mamba:3 记忆殿堂
Mamba自从出道就一直被拿来和Transformer对比,文章巨多,带着标题的爆炸性字样“颠覆Transfomer”,“全面包围”等等。文章深浅不一,小编认为其背后的设计思路以及演化过程更加重要。为此本专题将从山上有座庙开始,沿着RNN、SSM、S4、HIPPO一路走来。期间抛弃冗杂的文辞,以更接地气的模式协助读者打开新的逻辑思维.原创 2024-05-08 09:20:34 · 1127 阅读 · 1 评论 -
Mamba:2 状态空间模型
Mamba自从出道就一直被拿来和Transformer对比,文章巨多,带着标题的爆炸性字样“颠覆Transfomer”,“全面包围”等等。文章深浅不一,小编认为其背后的设计思路以及演化过程更加重要。为此本专题将从山上有座庙开始,沿着RNN、SSM、S4、HIPPO一路走来。期间抛弃冗杂的文辞,以更接地气的模式协助读者打开新的逻辑思维。原创 2024-05-06 20:45:47 · 1542 阅读 · 0 评论 -
Mamba:1 从RNN而聊起
有些文章偏向技术,有些文章偏向宣媒,小编认为还是需要比较客观独立的来分析它,尤其是其背后设计的思路以及演化的过程更加重要。因此这个小专题将从历史说起,沿着SSM、S4、HIPPO一路走来,期间还会抛弃冗杂的文辞,以更加接地气的方式打开模型设计的思维逻辑。这使得它能够处理不规则采样的数据,具有无限的上下文,并在整个训练和测试过程中保持计算效率。Mamba 在S4范式的基础上进行了扩展,带来了一些值得注意的改进,特别是在时变操作方面。A可以理解为一个矩阵,它是模型的参数,需要被训练得到的。原创 2024-05-06 20:38:23 · 831 阅读 · 0 评论 -
轻松读懂FlashAttention2
FlashAttention属于AI加速器,要读懂它需要先具备Transformer的背景知识以及注意力机制,最后才到FlashAttention。随着大模型优化技术的层出不穷,里面的kernel fusion技术将会越来越频繁的被提及,例如在Mamba中也被用于加速。因此借着FlashAttention的这个机会更加深入的了解下GPU。原创 2024-05-23 19:07:24 · 1684 阅读 · 0 评论 -
图解DSPy:Prompt的时代终结者?!
DSPy是一种编程模型,旨在改进语言模型 (LM)在复杂任务中的使用方式。传统上,LM使用特定的提示模板(Prompt)进行控制,这些模板是基本前期大量的尝试而找到的预设指令。DSPy通过将LM流水线抽象为文本转化图谱,例如被其他申明模块触发的LM的命令计算图谱。原创 2024-06-02 15:01:11 · 2160 阅读 · 0 评论 -
新鲜速递:图解新颖LLM的CoPE位置编码
6月份第一天CoPE诞生了。与传统基于Token的位置编码不一样,CoPE采用上下文进行位置编码,进而帮助LLMs更好地进行计数任务。原创 2024-06-03 09:06:08 · 1644 阅读 · 0 评论 -
下一个AI前沿与革命:KAN 下
上篇文章初步的介绍了KAN,记得在《重新审视神经网络》这篇文章中提及,任何人都可以构建自己心目中的神经网络。当小编还在准备Mamba,说时迟,那时快。在不断发展的AI领域,五一期间来自麻省理工学院的创新框架柯尔莫哥洛夫-阿诺德网络(KAN)正在准备以独特的模式改变传统多层感知机模型。原创 2024-05-06 20:56:02 · 1345 阅读 · 0 评论 -
下一个AI前沿与革命:KAN 上
记得在《重新审视神经网络》这篇文章中提及,任何人都可以构建自己心目中的神经网络。就当小编还在准备Mamba时,说时迟,那时快。在不断发展的AI领域,五一劳动节期间一种新的架构正在掀起波澜,来自麻省理工学院的创新框架被称为柯尔莫哥洛夫-阿诺德网络(KAN),准备以其独特的方法改变传统模型。原创 2024-05-06 20:53:09 · 1494 阅读 · 0 评论