
大模型
文章平均质量分 82
MatrixSparse
想成为技术帝的耿直boy
展开
-
浅谈MCP
MCP(Model Context Protocol)是一种为了统一大规模模型和工具间通信而设计的协议,它定义了消息格式和通信方式。MCP 协议支持多种传输机制,其中包括 stdio、Server-Sent Events(SSE) 和 Streamable HTTP。每种通信方法在不同的应用场景中具有不同的优劣势,适用于不同的需求。原创 2025-04-27 10:43:48 · 994 阅读 · 0 评论 -
大模型微调(一)
大模型(Large Model)是指在深度学习中具有大量参数和复杂结构的机器学习模型,通常用于处理复杂的任务,如自然语言处理、计算机视觉和语音识别等。这些模型的参数数量通常在数亿到数千亿之间,能够从海量数据中学习到丰富的特征和模式。原创 2025-03-26 14:02:28 · 170 阅读 · 0 评论 -
循环神经网络(三)RNN的输入与输出结构
在生成式任务中,RNN需要一个字、一个字、或一个词一个词地进行生成,在多次生成中逐渐构建出一个完整的句子或段落(所以你可能会观察到,ChatGPT这样的产品在说话的时候是一个词一个词往外蹦),所以生成式RNN的输出层和分类任务中的输出层有很大的区别。首先,NLP算法的生成并不能“无中生有”,模型只能从它曾经见过的字/词/短语中挑选它认为当下最能在语义上自洽的字/词/短语来进行输出,所以生成的本质是“在模型曾见过的字/词/短语中,挑选出最有可能使句子语义自洽的那个字/词/短语”。原创 2025-03-20 10:19:17 · 718 阅读 · 0 评论 -
循环神经网络(二)RNN的效率问题与权值共享
在现实中使用循环神经网络的时候,我们所使用的输入数据结构往往是三维时间或三维文字数据,也就是说数据中大概率会包括不止一张时序二维表、会包括不止一个句子或一个段落。因此在实际训练的时候循环神经网络是会一次性将所有的batch_size张二维表的第一行数据都放入神经元进行处理,故而RNN并不需要对每张表单一一处理,而是对全部表单的每一行进行一一处理,所以最终循环神经网络只会进行time_step次向前传播,所有的batch是共享权重的。原创 2025-03-12 18:33:51 · 342 阅读 · 0 评论 -
循环神经网络(一)RNN的基本架构与数据流
循环神经网络(Recurrent Neural Network)是自然语言处理领域的入门级深度学习算法,也是序列数据处理方法的经典代表作,它开创了“记忆”方式、让神经网络可以学习样本之间的关联、它可以处理时间、文字、音频数据,也可以执行NLP领域最为经典的情感分析、机器翻译等工作。在NLP领域,循环神经网络是GRU、LSTM以及许多经典算法的基础、更对我们理解transformer结构有巨大的帮助,因此即便在Transformer和大语言模型统治前沿算法战场的今天,我们依然需要学习RNN算法。原创 2025-03-09 17:38:47 · 935 阅读 · 0 评论 -
关于自然语言处理(四)深度学习中的文字序列数据的编码操作
一直以来,文字序列是不能直接放入算法进行运行的,必须要要编码成数字数据才能供算法学习,因此在NLP领域中我们大概率会将文字数据进行编码。编码的方式有很多种,但无一例外的,**编码的本质是用单一数字或一串数字的组合去代表某个字/词**,在同一套规则下,同一个字会被编码为同样的序列或同样的数字,而使用一个数字还是一串数字则可以由算法工程师自行决定。原创 2025-03-07 14:30:23 · 625 阅读 · 0 评论 -
关于自然语言处理(三)深度学习中的文字序列数据的分词操作
在文字数据中,样本与样本之间的联系是语义的联系,语义的联系即是词与词之间、字与字之间的联系,因此在文字序列中每个样本是一个单词或一个字(对英文来说大部分时候是一个单词,偶尔也可以是更小的语言单位,如字母或半词),故而在中文文字数据中,一张二维表往往是一个句子或一段话,而单个样本则表示单词或字。原创 2025-03-05 13:26:02 · 1033 阅读 · 0 评论 -
关于自然语言处理(二)深度学习中的时间序列数据
在深度学习的世界中,某一领域的架构/算法往往是根据该领域中特定的数据状态设计出来的。例如,为了处理带有空间信息的图像数据,算法工程师们使用了能够处理空间信息的卷积操作来创造卷积神经网络;又比如,为了将充满噪音的数据转变成干净的数据,算法工程师们创造了能够吞吃噪音、输出纯净数据的自动编码器结构。原创 2025-03-05 12:41:52 · 1213 阅读 · 0 评论 -
关于自然语言处理(一)
硬件加速器:例如 GPU(图形处理单元)、TPU(张量处理单元)、ASICs(应用特定集成电路)等。并行计算:多核处理器、分布式系统、超线程技术等。高效算法:如 FFT(快速傅里叶变换)、Strassen算法(快速矩阵乘法)等。内存和存储技术:如 SSD、RAM、以及新型存储技术如 3D XPoint。计算机视觉:包括以卷积神经网络(CNN)和图像处理在内的一系列内容,应用于图像识别、目标检测、图像分割等。语音识别:技术包括递归神经网络(RNN)、长短时记忆网络(LSTM)、声谱图等。原创 2025-03-04 12:45:25 · 935 阅读 · 0 评论 -
LLM部署所需GPU内存
推理阶段的内存需求主要由模型权重、KV缓存和激活内存组成。其中,模型权重是内存占用的主要部分。训练阶段的内存需求通常是推理的4-6倍,因为需要额外存储梯度、优化器状态(如Adam优化器需要额外8字节/参数)等。原创 2025-03-04 11:13:36 · 387 阅读 · 0 评论 -
视觉大模型基础
有监督预训练视觉模型是指在分类任务上(ImageNet)有监督的预训练,应用在其它任务时换掉全连接层进行微调可以更快收敛,效果更好,典型模型有VGG、ResNet、ViT等原创 2025-02-25 09:20:25 · 323 阅读 · 0 评论 -
多模态大模型基础
模态指一些表达或感知事物的方式,每一种信息的来源或者形式,都可以称为一种模态。原创 2025-02-24 09:50:36 · 479 阅读 · 0 评论 -
大语言模型基础
AI大模型是“人工智能预训练大模型”的简称,包含了“预训练”和“大模型”两层含义,二者结合产生了一种新的人工智能模式,即模型在大规模数据集上完成了预训练后无需微调,或仅需要少量数据的微调,就能直接支撑各类应用。AI大模型主要分为三类:大语言模型、CV大模型和多模态大模型,我将分别介绍它们的背景知识、关键技术、演进路线和挑战。原创 2025-02-21 16:41:51 · 1163 阅读 · 0 评论