AI专题精讲-优快云博客

原创 LiLT：一种简单而有效的语言独立布局转换器，用于结构化文档理解

结构化文档理解在智能文档处理中的重要作用使其近年来引起了广泛关注，并取得了显著进展。然而，大多数现有的相关模型只能处理包含在预训练集合中的特定语言（通常是英语）文档数据，这极为有限。为了解决这一问题，我们提出了一种简单而有效的语言独立布局转换器（LiLT），用于结构化文档理解。LiLT可以在单一语言的结构化文档上进行预训练，然后直接在其他语言上通过相应的现成单语/多语预训练文本模型进行微调。

2025-04-04 15:57:18 697

原创 GroupViT：语义分割从文本监督中诞生

分组和识别是视觉场景理解中的重要组成部分，例如用于目标检测和语义分割。在端到端的深度学习系统中，图像区域的分组通常是通过来自像素级识别标签的自上而下监督隐式地发生的。相反，在本文中，我们提出将分组机制引入深度网络，从而使语义分割能够仅通过文本监督自动生成。我们提出了一种分层的分组视觉变换器（GroupViT），它超越了常规的网格结构表示，学习将图像区域分组为逐渐增大的任意形状的段。我们将GroupViT与文本编码器联合训练，在一个大规模的图像-文本数据集上通过对比损失进行训练。

2025-04-04 15:52:28 522

原创迭代器、迭代对象的 iter() 、 next()、生成器的resume机制详解

可迭代对象（Iterable）本身没有 `__next__()`，但它通过 `__iter__()` 返回一个迭代器（Iterator），然后 `next()` 操作实际是在调用迭代器的 `__next__()` 方法。`可迭代对象 = 负责提供迭代器，迭代器 = 负责管理 __next__()取值！`**

2025-04-03 20:43:50 408

原创大模型专题—构建智能客户支持机器人：从zero-shot代理到专门化工作流的完整教程

现在，创建图表。图表是本节的最终助手。from langgraph.checkpoint.memory import MemorySaver # 导入用于保存图状态的内存检查点工具from langgraph.graph import END, StateGraph, START # 导入图的终点、状态图和起点from langgraph.prebuilt import tools_condition # 导入用于条件判断的工具。

2025-04-03 13:51:09 12

原创大模型专题11—LangGraph×LLM工作流全栈指南：增强型模型/并行化/路由/评估优化完整实现

LangGraph 提供的这些功能无疑为构建复杂的语言模型驱动应用提供了强大的支持。人工干预、记忆管理、流式处理和部署功能使得 LangGraph 能够适应各种动态复杂的任务需求，并提供实时的反馈与优化。通过这些功能，用户可以更加高效地设计、实现和维护智能应用，尤其是在涉及高精度决策、用户个性化需求和实时数据交互的场景中，LangGraph 展现出了巨大的潜力。

2025-04-03 13:50:16 10

原创 Llama3模型系列

Llama 3 的模型架构如 Figure 1 所示。. 我们首先将一个大型、多语言文本语料库转换为离散 tokens，并在所得数据上对一个 large language model (LLM) 进行 pre-training，以执行 next-token prediction。在 language model pre-training 阶段，模型学习语言结构，并通过“阅读”文本获取大量关于世界的知识。

2025-04-03 09:24:32 197

原创 M-CTC-T: 面向大规模多语言语音识别的伪标签技术

半监督学习通过伪标签已成为最新单语语音识别系统的核心方法。在本研究中，我们将伪标签方法扩展到包含 60 种语言的大规模多语言语音识别任务。我们提出了一种简单的伪标签方法，即使对于低资源语言也能取得良好效果：首先训练一个有监督的多语言模型，然后对其进行目标语言的半监督微调，再利用该模型为目标语言生成伪标签，最后使用所有语言的伪标签训练最终模型，可以选择从零开始训练或进行微调。

2025-04-03 09:09:01 545

原创 CUDA专题14—解锁GPU极致性能：CUDA图的结构设计与创建全攻略

CUDA 图提出了一种新的工作提交模型。在CUDA中，图是由一系列操作（如内核启动）组成，并通过依赖关系连接，这些操作的定义与执行是分开的。这样，图可以定义一次，然后重复启动。将图的定义与执行分开可以实现许多优化：首先，与流相比，CPU的启动开销减少，因为大部分设置工作提前完成；其次，将整个工作流呈现给CUDA，使得某些优化成为可能，这些优化在流的逐步工作提交机制中可能无法实现。

2025-04-03 09:08:06 11

原创 CUDA专题13— CUDA编程式依赖启动全解析：从技术背景到高阶应用

编程式依赖启动机制允许在其依赖的主内核（位于同一CUDA流中）执行完成前启动。该技术自计算能力9.0及以上的设备开始支持，当次级内核可完成大量不依赖主内核结果的工作时，能显著提升性能。

2025-04-03 09:07:15 11

原创 ColPali：基于视觉语言模型的高效文档检索

文档检索的目标是在给定的语料库中，将用户查询与相关文档进行匹配。这一任务在许多工业应用中至关重要，可以作为独立的排名系统（如搜索引擎），也可以作为更复杂的信息提取或 Retrieval Augmented Generation (RAG)流水线的一部分。近年来，预训练语言模型（PLMs）使文本嵌入模型的性能取得了显著提升。然而，在实际工业环境中，影响文档检索效率的主要瓶颈往往不是嵌入模型的表现，而是数据摄取（ingestion）过程的复杂性。

2025-04-02 12:09:15 630

原创 CUDA专题12—深度解析CUDA异步并发执行：高效利用GPU计算与数据传输

这些操作之间所能实现的并发级别，取决于设备的特性集和计算能力（如下所述）。

2025-04-02 10:58:38 14

原创 CUDA专题11—告别内存等待：深度解析CUDA同步域的原理与实战

部分CUDA应用程序可能因内存栅栏/刷新操作需等待超出CUDA内存一致性模型要求范围的内存事务，从而导致性能下降。以观察上述示例。根据CUDA内存一致性模型的保证，断言条件必然成立，这意味着线程1对变量x的写入必须在线程2对b的写入之前，对线程3可见。通过原子变量a的release-acquire操作所提供的内存序仅能确保x对线程2可见（因其作用域限于设备内部），而无法保证对线程3的可见性。

2025-04-02 10:57:43 12

原创 Deit: 训练数据高效的图像Transformer与基于注意力的蒸馏

在本节中，我们简要回顾与Vision Transformer相关的基础知识[15, 52]，并进一步讨论位置编码和分辨率问题。多头自注意力层（Multi-head Self Attention, MSA）。注意力机制基于一个可训练的关联记忆，其中包含（Key, Value）向量对。查询向量q∈Rdq∈Rd通过内积与kkk个Key向量（打包成矩阵K∈Rk×dK∈Rk×d）进行匹配。然后，这些内积被缩放，并通过Softmax函数归一化，以获得kkk个权重。

2025-04-02 10:17:22 547

原创大模型专题10 —LangGraph高级教程：构建支持网页搜索+人工干预的可追溯对话系统

到目前为止，我们使用的是一个简单的状态，其中仅包含一个消息列表。这种简单状态已经能满足许多需求，但如果你希望在不依赖消息列表的情况下定义更复杂的行为，你可以向状态中添加额外的字段。在本节中，我们将演示一个新的场景：聊天机器人使用搜索工具查找特定信息，并将其转发给人工进行审核。我们将让聊天机器人研究某个实体的生日。为此，我们将在状态中添加name和birthday这两个键。from typing import Annotated # 导入 Annotated，用于在类型注解中添加额外的元数据。

2025-04-01 22:30:57 254

原创 BLIP：通过自举式语言-图像预训练实现统一视觉-语言理解与生成

视觉-语言预训练（Vision-Language Pre-training, VLP）显著提升了多模态任务的性能。然而，现有预训练模型大多仅擅长基于理解的任务或基于生成的任务，且性能提升主要依赖从网络爬取的大规模噪声图像-文本对数据集，这种监督信号的质量存在局限。本文提出BLIP——一种可灵活迁移至视觉-语言理解与生成任务的新型VLP框架。该框架通过自举标注策略高效利用噪声网络数据：首先由标注生成器合成描述文本，再通过过滤器去除低质量样本。

2025-04-01 11:10:43 988

原创 CUDA专题10—从原理到实践：CUDA页锁定内存的可移植性、写合并与映射技术全指南

运行时提供了以下函数来支持使用页锁定（也称为固定）主机内存（与通过malloc()malloc()：对于某些设备，页锁定主机内存与设备内存之间的拷贝可以与内核执行并发进行（如异步并发执行部分所述）。：在某些设备上，页锁定主机内存可以映射到设备的地址空间中，从而无需在设备内存之间来回复制数据（详见映射内存部分）。：在前端总线系统中，如果主机内存分配为页锁定（尤其是进一步分配为写合并内存时），主机内存与设备内存之间的带宽会更高（如写合并内存部分所述）

2025-04-01 09:30:50 344

原创 CUDA专题9—CUDA共享内存 vs 分布式共享内存：架构解析与性能优化实战

这段代码展示了。

2025-04-01 09:29:47 182

原创重新思考预训练语言模型中的嵌入耦合

首先，我们研究增加输出嵌入大小对最后几层可迁移性的影响。此前的研究（Zhang et al., 2020;Tamkin et al., 2020）通过随机重新初始化最后几层来研究其可迁移性，但这些参数在微调过程中仍然存在。我们提出了一种更激进的剪枝方法，即完全移除最后几层。这种方法可以更直观地揭示模型的上层是否因预训练任务而过度专门化，即如果减少数百万个参数仍然能够提高性能，就说明原本的层次存在冗余。我们在 XNLI 任务上测试了具有不同输出嵌入大小。

2025-04-01 08:06:58 741

原创 CUDA专题8—CUDA L2缓存完全指南：从持久化策略到性能优化实战

当CUDA内核反复访问全局内存中的某个数据区域时，此类数据访问可视为持久化(persisting)访问。反之，若数据仅被访问一次，则可视为流式(streaming)访问。从CUDA 11.0开始，计算能力8.0及以上的设备能够调控L2缓存中数据的持久性，从而可能实现更高的全局内存访问带宽和更低的延迟。

2025-03-31 18:46:23 338 1

原创 CUDA专题7—CUDA Runtime完全指南：从内存管理到初始化最佳实践

CUDA Runtime 通过 cudart 库实现，该库可以静态链接（使用 cudart.lib 或 libcudart.a）或动态链接（使用 cudart.dll 或 libcudart.so）到应用程序。依赖动态链接 cudart.dll 或 libcudart.so 的应用程序通常需要将它们包含在安装包中。只有链接到同一个 CUDA Runtime 实例的组件之间传递 CUDA Runtime 符号地址才是安全的。所有 CUDA Runtime 的 API 入口点均以cuda作为前缀。

2025-03-31 10:56:14 109

原创 REALM：检索增强型语言模型预训练

语言模型预训练已被证明能够捕获大量世界知识，这对于问答等自然语言处理（NLP）任务至关重要。然而，这些知识是隐式存储在神经网络的参数中，为了覆盖更多的事实，需要不断扩大模型的规模。为了以更模块化和可解释的方式捕获知识，我们在语言模型预训练中引入了潜在知识检索器，使模型能够从大型语料库（如 Wikipedia）中检索和关注文档，并在预训练、微调和推理过程中加以利用。

2025-03-31 09:44:07 1092

原创一种经过稳健优化的BERT预训练方法

语言模型的预训练已经带来了显著的性能提升，但不同方法之间的仔细比较仍然具有挑战性。训练过程计算量大，通常使用不同规模的私有数据集进行训练。此外，正如我们将展示的，超参数选择对最终结果具有显著影响。我们对 BERT 预训练（Devlin 等，2019）进行了一项复现研究，系统地衡量了多个关键超参数和训练数据规模的影响。研究发现，BERT 训练不足，并且在适当优化后可以匹敌或超越其后发布的所有模型。我们的最佳模型在 GLUE、RACE 和 SQuAD 上达到了最新的最优性能。

2025-03-31 09:32:41 1072

原创 CUDA专题6—CUDA开发者必备：NVCC编译兼容性深度指南

CUDA C++为熟悉C++编程语言的用户提供了一条便捷路径由一组极简的C++语言扩展和一个运行时库构成。核心语言扩展已在"编程模型"章节中介绍。这些扩展允许程序员将内核定义为C++函数，并通过新增语法指定每次调用函数时的网格（grid）和线程块（block）维度。任何包含这些扩展的源文件必须按照使用NVCC编译中所述方式用nvcc编译。运行时库在CUDA运行时章节引入。它提供了在主机上执行的C和C++函数，用于分配/释放设备内存、在主机内存与设备内存间传输数据、管理多设备系统等。

2025-03-31 09:09:33 99

原创深度学习优化：线性预热 & 学习率调度全解析

对模型的收敛速度和最终性能至关重要。不同的学习率调度策略可以帮助模型在训练早期快速收敛，同时在后期避免震荡或陷入局部最优。在深度学习训练过程中，

2025-03-30 16:16:27 76

原创 CPM：大规模生成式中文预训练语言模型

预训练语言模型（PLMs）已被证明对各种下游自然语言处理（NLP）任务有益。最近，GPT-3 以 1750 亿参数和 570GB 训练数据引起了广泛关注，因为它具备少样本（甚至零样本）学习的能力。然而，将 GPT-3 应用于中文 NLP 任务仍然具有挑战性，因为 GPT-3 的训练语料主要为英语，并且其参数未公开可用。在本技术报告中，我们发布了一个基于大规模中文训练数据进行生成式预训练的中文预训练语言模型（CPM）。

2025-03-30 15:35:42 638

原创高效扩展Transformer模型在长文本摘要中的研究

摘要任务本质上是将信息从长序列压缩到短序列，而大多数常见的摘要任务输入通常比Transformer语言模型的输入序列长度要短，通常为512到2048个令牌。随着模型处理语言能力的提高，领域推动了更具挑战性的摘要任务，要求更长的输入序列。Transformer中注意力机制的内存和计算需求按二次方增长，这对处理这些长摘要任务构成了挑战。为了解决这一限制，许多高效的Transformer变体（Beltagy等，2020；Zaheer等，2020；Choromanski等，2021；Wang等，2020；

2025-03-30 15:25:35 757

原创 CUDA专题5—从理论到实践：解锁CUDA异构计算与异步SIMT的高性能奥秘

研究显示，Ampere架构中PCIe 4.0 x16的理论带宽为31.5GB/s，而设备内存（如A100的HBM2e）带宽达1555GB/s，相差近50倍，凸显优化数据传输的重要性。具有相同主版本号的设备采用相同核心架构：基于NVIDIA Hopper GPU架构的设备主版本号为9，Ampere架构为8，Volta架构为7，Pascal架构为6，Maxwell架构为5，Kepler架构为3。线程作用域（Thread Scope）是CUDA内存模型的核心抽象，它定义了多级同步粒度与硬件架构的映射关系。

2025-03-30 15:00:02 142

原创大模型提示词-LLM研究动态二-（专题9）

在过去的几年中，大型语言模型（LLMs）在广泛的任务中取得了显著进展。最近，LLMs在扩展到足够大的规模时显示出具备推理能力的潜力。不同类型的推理是智能的基础，但AI模型如何学习和利用这种能力来解决复杂问题尚未完全理解。这是许多研究实验室高度关注和投资的领域。

2025-03-30 14:56:55 18

原创 CUDA专题4—解锁GPU算力：深入理解CUDA内核、线程与内存三层次优化

在计算能力为9.0的GPU中，簇内的所有线程块都被保证在同一个GPU处理簇（GPC）上共同调度，并且线程块可以使用Cluster Group API提供的cluster.sync()进行硬件支持的同步。每个线程块都有一个共享内存（shared memory），该内存对该线程块内的所有线程可见，并且其生命周期与线程块相同。每个线程块的线程数量存在限制，因为一个线程块的所有线程都应当位于同一个流式多处理器核心上，并且必须共享该核心有限的存储资源。线程块的维度在内核中通过内置的blockDim变量访问。

2025-03-30 14:53:22 17

原创 CUDA专题3：为什么GPU能改变计算？深度剖析架构、CUDA®与可扩展编程

图形处理器（GPU）在相近的成本和功耗范围内，能够提供比中央处理器（CPU）更高的指令吞吐量和内存带宽。许多应用程序利用这些优势，在 GPU 上的运行速度远超 CPU（参见《GPU 应用》）。其他计算设备（如 FPGA）虽然能效也很高，但其编程灵活性远不及 GPU。GPU 与 CPU 的能力差异源于它们的设计目标不同。CPU 旨在以最快速度执行单个线程（即一系列操作），并可并行执行数十个线程；而 GPU 则专为并行执行数千个线程优化（通过牺牲单线程性能来换取更高的整体吞吐量）。

2025-03-29 17:57:00 386

原创 Facebook FAIR 的 WMT19 新闻翻译任务提交

我们的基础系统基于 FAIRSEQ 实现的大型 Transformer 架构（Vaswani 等, 2017）。我们通过增加嵌入维度（embed dimension）、前馈网络（FFN）大小、注意力头（heads）数量和层数来提升网络容量。实验表明，使用更大的 FFN（8192）可以在保持网络规模可控的同时带来合理的性能提升。因此，所有后续模型（包括集成模型）均采用此较大的 FFN Transformer 架构。

2025-03-29 15:52:37 682

原创 ProphetNet：基于未来n-gram预测的序列到序列预训练模型

作为自然语言生成的典型任务，抽象式文本摘要要求从长文档中生成简洁流畅的摘要。我们在两个广泛使用的数据集上进行微调和评估：(a) CNN/DailyMail数据集的非匿名版本(See et al., 2017)，(b) Gigaword语料库(Rush et al., 2015)。**CNN/DailyMail实验 **采用Adam优化器(Kingma and Ba, 2015)，峰值学习率设为1×10⁻⁴。批大小、预热步数和总训练轮数分别设置为512、1000和10。

2025-03-29 15:39:13 815

原创大模型提示词-LLM Agents与检索增强生成（RAG）-（专题8）

RAG接收输入，并根据给定来源（例如维基百科）检索一组相关/支持性文档。这些文档作为上下文与原始输入提示连接，并输入到文本生成器中，生成最终输出。这使得RAG能够适应事实可能随时间变化的情况。这非常有用，因为LLM的参数化知识是静态的。RAG允许语言模型绕过重新训练，通过基于检索的生成访问最新信息以生成可靠的输出。简而言之，RAG中检索到的证据可以作为提高LLM响应准确性、可控性和相关性的一种方式。这就是为什么RAG可以帮助减少在高度动态环境中解决问题时的幻觉或性能问题。

2025-03-29 11:54:15 22

原创大模型提示词-风险与滥用（大型语言模型中的对抗性提示、事实与偏见）-（专题7）

精心设计的提示可以通过少样本学习（few-shot learning）和思维链提示（chain-of-thought prompting）等技术，有效地利用大型语言模型（LLMs）完成各种任务。然而，当您考虑在LLMs之上构建实际应用时，思考语言模型可能带来的滥用、风险以及安全实践也变得至关重要。本节重点介绍通过提示注入（prompt injections）等技术可能引发的LLMs风险和滥用行为。同时，还探讨了有害行为以及如何通过有效的提示技术和审核API等工具来缓解这些问题。其他相关主题包括泛化性、校准、

2025-03-29 11:52:15 20

原创中文 CLIP：中文对比视觉-语言预训练

视觉-语言基础模型的巨大成功推动了计算机视觉和多模态表示学习的研究与应用。然而，将此类基础模型有效迁移到特定语言场景仍然存在困难。在本研究中，我们提出了 Chinese CLIP，并采用两阶段预训练方法：第一阶段进行锁定图像微调（locked-image tuning），第二阶段进行对比学习微调（contrastive tuning）。具体而言，我们开发了 5 种不同规模的 Chinese CLIP 模型，参数量从 7700 万到 9.58 亿不等，并在收集的大规模中文图文对数据集上进行了预训练。

2025-03-28 15:32:51 1037

原创 MYTE: 基于形态学的字节编码，以实现更好且更公平的多语言语言建模

在多语言语言建模中，一个主要的考虑是如何最好地表示具有多样化词汇和文字的语言。尽管当代的文本编码方法涵盖了世界上大多数的书写系统，但它们对全球西方的高资源语言表现出偏见。因此，代表性不足的语言的文本往往被分割成长序列的语言学上无意义的单位。为了解决这些差异，我们引入了一种新的范式，该范式用跨不同语言的一致大小的段来编码相同的信息。我们的编码约定（MYTE）基于词素，因为它们的库存比字符更平衡，而字符是以前方法中使用的。

2025-03-28 09:54:40 678

原创大模型提示词-模型五（Mistral、Mixtral、OLMo、Phi-2提示词应用对比） -（专题6）

Mixtral 8x7B 是由 Mistral AI 发布的一种稀疏专家混合（SMoE）语言模型。Mixtral 的架构与 Mistral 7B 类似，但主要区别在于 Mixtral 8x7B 的每一层由 8 个前馈块（即专家）组成。Mixtral 是一个仅包含解码器的模型。在处理每个 token 时，每一层的路由网络会选择两个专家（即，从 8 组不同的参数中选择 2 组）来处理该 token，并将它们的输出加权相加。换句话说，给定输入后，整个 MoE 模块的最终输出是由专家网络生成的多个输出的加权和。

2025-03-28 09:27:44 31

统计学习方法.李航 (1).pdf

深度学习与交通大数据实战V2.0版

空空如也