NVIDIA提出STORM!Mamba 建模时间编码器!Token压缩实现高效长视频理解新SOTA!

🌐 社群导航

🔗点击加入➡️【AIGC/LLM/MLLM/3D/自动驾驶】 技术交流群

🔗点击加入➡️【2-3月CCF投稿】交流群

最新论文解读系列

图片

论文名:Token-Efficient Long Video Understanding for Multimodal LLMs

论文链接:https://arxiv.org/pdf/2503.04130

开源代码:https://research.nvidia.com/labs/lpr/storm

图片

导读

基于视频的多模态大语言模型(Video-LLM)的最新进展显著提升了人工智能系统理解和生成视频内容描述的能力。这些模型中常用的一种策略是将视频视为一系列单独的图像帧,使用图像编码器和视觉语言投影器独立处理每一帧。然后将得到的帧级表示输入到大语言模型(LLM)中,该模型进行时间推理以理解视频中所描绘的事件序列。

简介

基于视频的多模态大语言模型(Video-LLMs)的最新进展,通过将视频处理为图像帧序列,显著提升了视频理解能力。然而,许多现有方法在视觉主干网络中独立处理帧,缺乏显式的时间建模,这限制了它们捕捉动态模式和有效处理长视频的能力。为解决这些局限性,我们引入了STORM(面向多模态大语言模型的时空令牌缩减,Spatiotemporal TOken Reduction for Multimodal LLMs),这是一种新颖的架构,在图像编码器和大语言模型之间融入了一个专门的时间编码器。我们的时间编码器利用曼巴状态空间模型(Mamba State Space Model)将时间信息整合到图像令牌中,生成丰富的表示,这些表示能保留整个视频序列中的帧间动态。这种丰富的编码不仅增强了视频推理能力,还能实现有效的令牌缩减策略,包括测试时采样以及基于训练的时间和空间池化,在不损失关键时间信息的情况下,大幅降低了大语言模型的计算需求。通过整合这些技术,我们的方法在提高性能的同时,还能同时减少训练和推理延迟,实现了在长时间上下文下高效且稳健的视频理解。大量评估表明,STORM在各种长视频理解基准测试中取得了最先进的成果(在MLVU和LongVideoBench上提升超过5%),同时对于固定数量的输入帧,计算成本最多降低,解码延迟降低。

方法与模型

本节介绍基于曼巴(Mamba)的时间投影器架构,并引入几种用于高效长视频处理的令牌压缩技术。我们提出了两种令牌压缩方法:时间压缩和空间压缩。我们首先详细介绍我们的时间和空间池化策略,这些策略能在训练期间有效减少令牌数量。此外,我们提出了一种测试时的时间令牌采样方法,该方法无需额外的训练步骤即可保持模型性能。我们方法的概述如图2所示。

图片

图 2 | STORM 流程概述。我们在图像编码器和大语言模型(LLM)之间提出了一个基于曼巴(Mamba)的时间投影器。该投影器弥合了视觉表示和语言表示之间的差距,同时将时间信息注入到标记中。处理后的标记(在图中表示为摘要标记)自然地捕捉了时间历史,有效地总结了视频的时间动态。这种能力使我们能够在不损失关键信息的情况下,减少用于大语言模型处理的视觉标记数量。

1. 预备知识

状态空间模型(SSMs) 状态空间模型(SSM)通过以下循环过程在输入序列和输出序列之间建立线性变换:

在此, 是序列长度; 是时刻  的输入和输出向量; 是对历史  进行总结的隐藏状态。矩阵  和  由可学习的权重参数化,这些权重旨在便于对长期依赖关系进行建模。当  是时不变的(在  上保持恒定)时, 的计算可以并行化,从而实现高效的训练和推理。

曼巴(Mamba) 最近,曼巴(Mamba)[9]提出根据输入来调整这些矩阵,以增强序列状态模型(SSMs)的序列建模能力。具体而言,曼巴(Mamba)采用可学习函数、和来生成与输入相关的矩阵,如下所示:

这种方法使模型能够根据当前输入动态地强调或抑制信息,从而实现更灵活、自适应的序列建模。此外,曼巴(Mamba)利用一种考虑硬件的并行算法,以确保与输入相关的矩阵不会影响序列状态模型(SSMs)固有的训练和推理效率。

2. 基于曼巴(Mamba)的时间投影器

传统的视频大语言模型(Video - LLMs)通常独立处理视频帧,需要大语言模型(LLM)从静态图像序列中推断时间关系。这种方法在计算上效率低下,尤其是在处理长视频时。此外,这种方法未能利用视频数据中固有的时间冗余性,导致在连续帧中对相似信息进行冗余处理。为了解决这些局限性,我们引入了基于曼巴(Mamba)的时间投影器,它能有效地整合视频帧间的时间信息,同时实现有效的时间标记压缩。

令表示由视觉变换器(ViT)编码器得到的第帧的图像标记,其中是每帧的标记数量,是标记维度。我们首先应用一个线性层将每帧的标记下采样为个标记:

其中  是下采样率。为简单起见,我们定义  并在本文的其余部分使用 。来自所有帧的下采样标记被堆叠起来,形成时间模块的输入张量:

时间投影器的核心由  个曼巴(Mamba)层组成,这些层将时间动态信息迭代地整合到标记中。在每一层  中,我们通过以下方式将时间信息融合到视觉标记中:

其中 ,并且  表示层归一化(layer normalization)。每个曼巴混合器(MambaMixer)采用了一个双向扫描模块,该模块能够捕捉空间和时间维度上的依赖关系。具体而言,我们在每一帧内以及跨帧应用了一种扫描顺序,即从左到右、从上到下以及逐帧扫描(见图2)。经过  层处理后,我们得到了富含时间信息的标记,记为 。

3. 训练时标记压缩

处理长视频给大语言模型(LLMs)带来了两大挑战。首先,处理所有帧的计算成本很高,通常需要进行专门的系统优化,如序列并行化,并使用多个图形处理器(GPU)进行训练和推理[8]。其次,大语言模型本质上受到其训练上下文长度的限制。例如,LLaMA 3(大模型名称,未变)的上下文长度为个标记,在每帧使用 256 个标记的情况下,对于视频输入而言,这仅相当于 32 帧。如果不进行标记压缩,视频处理很快就会超出大语言模型的有效输入容量,导致模型性能显著下降。在这项工作中,我们旨在通过在时间和空间维度上进行标记压缩来实现高效的长视频处理,从而解决计算成本和上下文长度限制这两个问题。我们的方法无需进行定制系统优化,并且可以在单个图形处理器上进行推理。我们在图 3(左和中)中展示了训练时的标记压缩情况。

时间池化 由于连续帧通常包含相似的信息,分析每一帧可能会导致冗余处理和潜在的过拟合。此外,过多的标记可能会使大语言模型(LLM)难以识别重要的时间模式。因此,我们建议应用时间平均池化来有效地压缩视觉信息 。这种方法通过对连续帧中丰富的视觉标记求平均值来合并数据。具体而言,对于来自时间投影器的标记 ,我们对每  个连续帧求平均值:

结果,我们得到了压缩后的标记:

图片

图3 | 标记压缩策略。该图展示了我们的标记压缩技术:时间平均池化(左)、空间平均池化(中)和免训练的时间标记采样(右)。这些方法可以根据任务要求和计算预算限制单独应用或组合应用。

尽管时间平均法很简单,但它能有效减少大语言模型(LLM)处理的标记数量,同时将关键信息的损失降至最低。这促使我们采用这种简单而有效的技术,以实现长视频理解中的高效训练。

空间池化 除了时间池化,我们还探索了空间域中的平均池化。形式上,给定视觉编码器的输入  和空间压缩比 ,我们对每一帧应用核大小和步长均为  的平均池化,得到 。

4. 免训练的时间标记采样

经过时间投影仪处理后,每个视觉标记都被赋予了时空信息,不仅捕捉其对应帧的特征,还捕捉整个视频中其他帧的特征。这种全局信息编码使我们能够在测试时沿时间维度对视觉标记进行二次采样,从而在不显著损失信息或性能的情况下,进一步减少输入到大语言模型(LLM)的标记数量。这种时间标记二次采样策略可以在使用或不使用我们的池化机制的情况下实现。请注意,与对原始帧进行二次采样并可能丢弃关键时间线索的方法相比,我们的方法利用了时间编码后标记的时空丰富性。我们在图3(右侧)展示了时间标记采样的示意图。

形式上,令  表示下采样层的输入标记,这些标记可以是来自视觉编码器  的标记,也可以是来自压缩模块  或  的输出标记。这里, 和  是经过任何时间或空间池化后的时间和空间维度。我们沿着时间维度以速率  进行均匀下采样。

我们的实验结果表明,这种下采样方法不仅能在各种视频理解基准测试中保持性能,还能通过减少冗余帧中的噪声来提升性能。

实验与结果

在本节中,我们在各种视频理解基准测试中对所提出的方法进行了广泛评估,并提供了实证分析,展示了时间投影器如何在实现高效标记减少的同时,具备强大的视频推理能力。

1. 训练细节

我们分别使用来自PaliGemma [27]的预训练SigLIP [12]模型和Qwen2-VL [28]模型,并对它们进行微调以适应我们的视频数据集。时间投影器使用随机权重进行初始化。每张图像始终调整为分辨率。

训练 在第一阶段,即对齐阶段(Alignment Stage),我们冻结图像编码器和大语言模型(LLM),仅使用一个包含9.5万对图像 - 文本对的小图像 - 文本数据集[37]来训练时间投影器。请注意,曼巴(Mamba)层不仅在时间维度上进行扫描,还在图像的空间维度上进行扫描,因此训练它并不严格需要视频输入。在对齐阶段,我们发现仅使用图像 - 文本对来预训练时间投影器就足够了。在第二阶段,即有监督微调阶段(SFT),我们使用一个大型且多样化的数据集对所有三个组件进行微调,该数据集包括纯文本、图像 - 文本和视频 - 文本数据。由于篇幅限制,我们的SFT混合数据集中大约有个样本。在这个阶段,我们为每个视频输入使用32帧。对于在训练时进行令牌压缩的模型,我们使用的压缩比,时间池化模型将32帧压缩为8帧,而空间池化模型将每张图像的256个令牌压缩为64个令牌。此外,对于在训练时进行令牌压缩的模型,我们还使用来自LLaVA - 视频数据集[38]的128帧长视频输入进行长视频微调阶段。我们在附录第7.4节中提供了完整SFT数据集和长视频微调数据集的更多详细信息。

评估 我们在多个配置下,在专门为严格评估视频 - 语言模型能力而设计的近期长视频理解基准测试中对我们的 STORM 进行了评估。这些基准测试包括自我图式(EgoSchema)[39]、多模态视觉基准(MVBench)[40]、多语言视觉理解(MLVU)[41]、长视频基准(LongVideoBench)[42]和视频多模态评估(VideoMME)[43]。我们将我们的方法与广泛的代表性视频 - 语言模型进行了比较,包括最近提出的专为长视频理解量身定制的模型 。详情见表 1。

模型 我们基于VILA代码库[2]实现了STORM,这是一个典型的视觉语言模型(VLM)流水线,由视觉编码器、大语言模型(LLMs)和视觉语言投影器组成,并将我们新颖的曼巴(Mamba)模块和压缩机制引入该架构。在实验中,我们将使用VILA代码库训练的所有模型称为基于VILA的模型。为了全面分析我们的设计,我们使用三种压缩方法(时间平均池化、空间平均池化和时间标记采样)的所有组合来评估STORM的变体。完整结果见表5。为了与现有的视频大语言模型(Video - LLMs)进行比较,我们在表1中突出显示了性能最佳的变体,并在表2中对STORM的所有变体进行了详细分析。为确保公平性,我们还纳入了一个在相同数据集和训练方案下训练的基线VILA模型,但不包含曼巴(Mamba)模块。表2中的所有模型均在相同的标记预算(对应32帧标记)下进行训练,这代表了输入到大语言模型的视觉标记数量,是影响推理延迟和内存消耗的关键因素,尤其是在帧数增加时(见第5节)。具体而言,我们报告了在32帧输入上训练的标准STORM以及采用时间池化的STORM的结果,后者处理128帧输入,同时减少标记数量以匹配32帧变体。此外,我们还评估了在测试时应用时间采样(+T.采样)的配置,这不仅进一步提高了模型效率,还提升了在某些基准测试中的性能。

2. 视频理解基准测试结果

STORM(风暴)与现有方法的比较 我们首先将我们的配置STORM + T. Pooling(+ T. Sampling)与现有的视频大语言模型(Video-LLMs)进行比较。如表1所示并在表2中详细说明,STORM + T. Pooling在所有长视频理解基准测试中都达到了最先进的性能。具体而言,它在MVBench上的准确率达到,在MLVU上达到72.5%,在LongVideoBench上达到59.5%,在VideoMME上达到,超过了所有开源的视频大语言模型,包括最近专门为长上下文输入设计的模型,如LongVU和LongVILA。此外,我们的方法显著缩小了与专有模型的性能差距,在MVBench和MLVU上超过了GPT4-V和GPT4-O,在VideoMME上超过了GPT4-V。值得注意的是,STORM + T. Pooling通过在将视觉标记输入大语言模型处理之前将其压缩至原始数量的,实现了计算效率的提升。我们可以通过在STORM + T. Pooling + T. Sampling中应用测试时的时间采样进一步提高效率,同时仍能取得有竞争力的结果,在保持有竞争力的性能的同时将标记数量减少到仅12.5%。事实上,这种额外的压缩甚至改善了某些基准测试的结果,在MLVU和LongVideoBench上取得了最佳的整体性能。

图片

STORM与基线VILA对比 接下来,我们在基于VILA的模型中进行了对照比较,以揭示表2中基于Mamba的时间模型的优势。我们首先将基线VILA模型与我们的STORM进行比较。通过集成Mamba模块,STORM在四个基准测试中的三个上实现了性能提升,包括在VideoMME上显著的提升。此外,在测试时对STORM采用时间标记采样(STORM + T. Sampling)进一步提高了效率,将推理时间减少了,而且令人惊讶的是,还保持或略微提升了性能(在VideoMME上额外提升了0.8%)。这种优势表现的出现是因为Mamba模块能够有效地在视频帧之间传播时间信息,使得在不影响模型整体理解的情况下可以丢弃冗余标记。

图片

时间池化变体(STORM + T. Pooling)通过在曼巴(Mamba)层之后应用时间平均池化,将这些优势扩展到长上下文训练中,这使得模型能够处理128帧的输入,同时压缩标记数量以匹配32帧设置的标记数量。这种方法不仅提高了性能,在视频多模态评估(VideoMME)上达到,在长视频基准测试(LongVideoBench)上达到59.5%(+3.6%),在多语言视觉理解(MLVU)上达到,在多视图基准测试(MVBench)上达到,而且还将推理延迟显著降低了。通过将该模型与测试时时间标记采样(STORM + T. Pooling + T. Sampling)相结合,我们进一步将推理时间减少了,并且与视觉语言对齐(VILA)模型相比,仅使用了12.的视觉标记,同时不牺牲性能。我们观察到,与MVBench和VideoMME相比,这种测试时时间标记采样对MLVU和LongVideoBench特别有益。这种在不同基准测试中的不同影响可能源于底层任务的性质。MLVU和LongVideoBench需要对长视频进行全局理解。我们认为,使用曼巴(Mamba)模块进行测试时压缩能够更好地总结关键的上下文信息。另一方面,MVBench和VideoMME需要特定帧的视觉细节。我们仅使用曼巴(Mamba)模块进行池化的方法在整个序列中保留了更多详细的帧信息。第5节详细讨论了如何通过我们的标记压缩方法保留视觉信息。

图片

长视频输入下的空间池化与时间池化对比 表3展示了在32帧训练和128帧扩展情况下,空间平均池化和时间平均池化的对比结果。所有模型均以STORM(时空优化表示模型,Spatio-Temporal Optimized Representation Model)为基础模型。我们发现,在训练使用32帧时,空间池化效果显著,在LongVideoBench(长视频基准测试)上表现优于时间池化,在VideoMME(视频多模态评估,Video Multi-Modal Evaluation)上取得了相当的结果。然而,当应用128帧输入时,尽管两种方法使用相同的令牌预算,但时间池化的性能明显更好。事实上,空间池化无法从更长的视频输入中受益,导致在LongVideoBench和VideoMME上的性能下降,而时间池化则成功地在两个基准测试中通过扩展视频长度实现了更强的性能。

分析

曼巴模块(Mamba Module)改进简单令牌压缩 如图2所示,基于曼巴(Mamba)的时间投影器对输入帧进行时空扫描。这种方法能够在压缩操作之前对视觉令牌进行细化,从而保留关键的时间和空间线索,例如正在合并的帧的位置信息,而这些线索在简单的压缩策略中会丢失。因此,如表4所示并在表9中进一步详细说明,与基线相比,曼巴时间模块使简单的令牌压缩方法在处理长视频时更有效。

图片

我们的研究结果表明,在训练过程中,STORM(时空优化递归模型,Spatio-Temporal Optimized Recurrent Model)随着视频输入长度的增加而持续改进。当输入帧数从8帧增加到32帧时,在所有基准测试中均取得了的显著提升;当帧数从32帧进一步增加到128帧时,还能额外获得的提升。相比之下,基线模型VILA(视频语言对齐模型,Video-Language Alignment model)在输入帧数从8帧增加到32帧时,提升幅度较小;在128帧上进行微调时,仅取得了的性能提升。事实上,如表9所示,当视频长度从32帧增加到128帧时,基线模型在MVBench和MLVU基准测试中出现了性能下降。这些结果充分证明了Mamba模块在实现高效且有效的令牌压缩方面的重要性,特别是对于长视频输入而言。

图片

曼巴(Mamba)和令牌压缩模块的消融实验 表5展示了一项消融实验,比较了在固定32帧输入上训练的模型的各种令牌压缩策略。在不进行任何压缩的情况下,与基线模型VILA相比,我们的标准STORM模型在各项基准测试中表现更优,同时推理延迟和视觉令牌数量相近。当应用测试时的时间采样时,模型在将视觉令牌数量减少到并将推理延迟降低到未压缩STORM模型的的情况下,仍能保持其性能。在训练和测试期间采用时间平均池化进一步将令牌数量压缩到,并将延迟降低到42.7%,这对MVBench和MLVU特别有效,但会使LongVideoBench和VideoMME的性能略有下降。同样,空间平均池化也能带来相同的效率提升,并且在LongVideoBench上特别有效,但会在其他基准测试上做出一定妥协。

我们进一步应用时间标记采样(结合时间池化或空间池化)来提高测试时的效率。例如,STORM + 时间池化(T. Pooling)+ 时间采样(T. Sampling)将视觉标记减少到仅为,并将延迟降低到原始STORM的,同时保持与STORM + 时间池化相当的准确率。STORM + 空间池化(S. Pooling)+ 时间采样在这种强大的标记减少情况下甚至在LongVideoBench上取得了最佳性能。最后,我们将时间和空间平均池化与测试时时间标记采样结合使用(或不结合),实现了更激进的压缩。有趣的是,我们的STORM + 时间池化 + 空间池化 + 时间采样变体具有最强的压缩比,仅使用3.13%的视觉标记和的推理延迟,就已经取得了有竞争力的结果。与基线模型VILA相比,它在VideoMME上达到了的性能,在LongVideoBench上达到了98.9%,在MLVU上达到了97.7%,在MVBench上达到了96.7%,这使其在注重效率的场景中颇具吸引力。

我们注意到,尽管未压缩的STORM(时空目标关系建模,Spatio-Temporal Object Relation Modeling)及其测试时采样变体在使用相同的32帧输入时实现了最高的整体性能,但它们的计算需求限制了在更长序列上进行训练的可扩展性。相比之下,如表2所示,STORM + T.池化(Temporal Pooling,时间池化)允许通过时间池化将时间上下文扩展到128帧,这在无需额外大语言模型(Large Language Model,LLM)计算的情况下提高了性能。

词元压缩提高模型效率 我们在图4中对模型效率进行了分析。在图4左侧,我们比较了有无词元压缩情况下STORM(风暴)模型的推理延迟,以及不同数量输入帧的情况。由于大语言模型(LLM)的二次计算特性,随着序列长度的增加,两种配置之间的延迟差距显著扩大。图4中间详细分解了处理256帧时不同模块的推理延迟。在没有词元压缩的情况下,大约的总延迟归因于大语言模型(LLM)模块。通过应用4倍的词元压缩率,与大语言模型(LLM)相关的延迟大约降低到原来的,显示出效率的显著提升。

图片

图4 | 长视频输入下的模型效率和有效性。(左)推理过程中,随着帧数增加,标记压缩的性能分析结果。(中)在单个A100上,256个输入帧在不同压缩比下的性能分析结果。(右)推理过程中,不同帧数下Video - MME(无字幕)的准确率。虽然采用测试时时间采样的STORM表现出持续的性能提升,但未进行标记压缩的VILA和STORM在超过64帧后性能均有所下降。

重要的是,时间投影仪能够在不影响性能的情况下实现令牌压缩。事实上,对于一些基准测试,如表2所示并在表8中详细说明,它甚至可以在降低计算成本的同时提高模型性能。图4右侧展示了在VideoMME基准测试中使用时间采样方法的详细分析。我们比较了三种配置:VILA基线模型、未进行压缩的STORM模型以及在测试时进行时间令牌采样的STORM模型,使用最多128个输入帧,压缩比为2。结果表明:(1)VILA基线模型的性能在达到32帧之前有所提升,但超过该帧数后性能下降;(2)STORM模型在处理更长序列时具有更好的泛化能力,在达到64帧之前性能保持稳定,之后略有下降;(3)采用时间采样的STORM模型在达到128帧之前性能持续提升,同时提供的令牌压缩比,这意味着在128帧时使用时间采样的STORM模型所使用的视觉令牌数量与其他两种模型在64帧时使用的数量相同。

我们推测,这种现象是由于预训练大语言模型(LLM)的局限性所致。尽管这些模型在理论上具有较长的上下文长度,但在实际应用中,其有效上下文长度较短。这种局限性阻碍了它们在处理极长序列时的性能。时间投影器和时间采样的结合确保了输入到大语言模型的标记数量保持在其有效上下文长度范围内。同时,丰富的视觉标记保留了采样帧之外的全面时间信息。

曼巴(Mamba)模块的训练开销极小

曼巴投影器引入的训练开销极小:即使不进行压缩,在全量训练中也仅增加的延迟(使用VILA(无曼巴模块)训练时间为19.1小时,使用STORM(有曼巴模块)训练时间为20.1小时)。更重要的是,由于曼巴模块能够实现有效的标记压缩,实际上它显著提高了训练/推理速度并提升了性能(例如,在MLVU数据集上,使用少个标记的情况下达到的效果),最终降低了训练成本。

图片

图5 | STORM + T.池化的定性示例。我们的模型能够有效处理复杂的视频内容,适用于各种需要细粒度时间和视觉理解的任务,同时通过高效的标记压缩降低计算开销。示例视频可在我们的网站上找到。

我们的令牌压缩保留视觉信息 图5中的定性结果表明,STORM的令牌压缩在显著减少计算开销的同时,保留了关键的视觉信息。即使在压缩比的情况下,我们的模型也能在各种视频理解任务中准确提取与任务相关的信息。例如,像“视频中的诗是谁写的?”、“这段视频中新闻片段出现了多少次?”以及“最后一场表演有什么独特之处?”这类问题需要细粒度的视觉信息,并关注提示中的特定内容。对VideoMME(图7)进行的详细类别级分析还显示,STORM + 令牌压缩在几乎所有任务类别中始终优于基线模型。即使在需要详细视觉分析的OCR密集型任务中,我们的压缩模型在仅使用一小部分计算资源(仅25%的视觉令牌)的情况下,仍能保持与未压缩版本相当的性能。这些发现表明,我们基于Mamba的时间编码器通过将时空关系直接编码到视觉令牌中,实现了有效的令牌压缩,使模型在大幅减少令牌数量的同时保持高层次的理解。图10 - 13提供了更多定性结果。

图片

我们的模块可泛化至多种架构 我们的核心设计,即时间模块 + 令牌压缩,与模型无关,可集成到各种视频大语言模型(Video-LLM)架构中。表 6 展示了在使用不同大语言模型(LLM)、视觉编码器和模型规模的模型上进行的实验。我们的设计在所有配置下的性能和延迟方面均有持续提升,清晰地展示了该模型的通用性。

结论

我们介绍了 STORM,这是一种新颖的视频大语言模型(Video-LLM)架构,它通过基于 Mamba 的时间编码器和高效的令牌缩减来增强长视频理解能力。通过在处理流程早期将时空动态明确集成到视觉令牌中,STORM 能够在显著压缩令牌的同时,保留压缩输入中的关键时间信息。实验表明,STORM 在长视频理解基准测试中取得了新的最优结果,同时大幅提高了计算效率。我们的工作为长视频语言建模建立了一种可扩展的方法,能够同时实现良好的性能和计算效率。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值