
大模型
文章平均质量分 91
详细讲解常用的大模型技术,如数据清洗,分布式部署,算法,模型部署,推理优化等常用知识。
fpga和matlab
专业即算法,算法即数学,数学即万物。从事MATLAB算法仿真工作15年,从事FPGA系统开发工作12多年。擅长解决各种算法仿真、建模、通信、图像处理、AI、智能控制等各专业问题。
展开
-
通过增加训练样本和优化算法解决过拟合现象
在机器学习和深度学习中,过拟合是一个常见且棘手的问题。当模型在训练数据上表现出色,但在未见过的测试数据上表现不佳时,就发生了过拟合。过拟合通常是由于模型过于复杂,学习到了训练数据中的噪声和异常值,而不是数据的真实模式。为了解决过拟合问题,我们可以从训练样本和算法优化两个方面入手。原创 2025-03-30 16:50:57 · 660 阅读 · 0 评论 -
权重剪枝技术理论概述
随着深度学习模型在计算机视觉、自然语言处理等领域的广泛应用,模型规模呈指数级增长。例如,GPT-4参数量达到1.8万亿,这对计算资源和部署环境提出了严峻挑战。权重剪枝(Weight Pruning)作为模型压缩的核心技术,通过删除冗余参数实现模型轻量化,同时保持性能稳定。原创 2025-03-30 16:28:28 · 670 阅读 · 0 评论 -
小样本学习概述
在传统监督学习范式中,模型需要大量标注数据才能达到理想性能。然而,在许多现实场景中(如医疗影像分析、稀有物种识别、历史文本分类等),标注数据极度稀缺。小样本学习(Few-Shot Learning, FSL)旨在解决这一问题,其核心目标是通过少量标注样本(通常为 1-5 个)训练模型,使其能够对新类别进行有效分类或回归。本文将深入探讨小样本监督学习的核心原理、数学模型及前沿方法。小样本监督学习通过元学习、生成模型、度量学习等技术,突破了传统监督学习对大规模数据的依赖。原创 2025-03-24 20:57:51 · 623 阅读 · 0 评论 -
基于无标签数据的自监督学习理论研究与分析
无标签数据(Unlabeled Data)指未被人工标注或缺乏明确语义信息的数据。例如,一段未标注情感倾向的文本、一张未标记物体类别的图像,或一组未分类的传感器信号。这些数据本身仅包含原始特征(如像素值、文本词汇、时间序列等),但缺乏与特定任务直接相关的监督信号(如分类标签、回归目标)。无标签数据规模通常远超有标签数据,传统算法(如基于全连接层的神经网络)需消耗大量计算资源。半监督学习或自监督学习模型的训练需平衡标注与未标注数据的利用效率。原创 2025-03-22 23:40:07 · 781 阅读 · 0 评论 -
嵌入向量、潜空间向量以及表征的基本认识
例如,在一个简单的文本分类任务中,将输入句子中的每个单词通过预训练的词嵌入模型转换为向量,然后将这些向量拼接或平均等方式组合起来,作为后续神经网络层的输入。例如,在图像识别中,对于图像中的不同区域或特征,可以学习一种嵌入表示,使得相似的区域在嵌入空间中距离较近,不同的区域距离较远。:学习到的表征可以作为特征用于各种分类任务。例如,在自然语言处理的循环神经网络(RNN)或长短期记忆网络(LSTM)中,词嵌入向量作为输入序列,经过循环层的处理,能够捕捉文本中的长期依赖关系,从而更好地进行语义理解和任务处理。原创 2025-03-18 20:40:14 · 856 阅读 · 0 评论 -
字节跳动COMET:MoE架构优化技术解析
在人工智能领域,随着模型规模与复杂度不断攀升,高效的模型架构优化技术成为关键。字节跳动开发的 COMET(Computation-communication co-Execution for Mixture-of-Experts Training),针对混合专家模型(MoE,Mixture of Experts)架构,有效解决了分布式训练中通信开销过大的难题,显著提升训练效率并降低成本。原创 2025-03-15 17:23:07 · 985 阅读 · 0 评论 -
DeepSeek开源周开源的五个项目分析
实验数据表明,使用 DualPipe 能够将训练效率提升200% 左右,同时仅增加了1倍的激活内存峰值,在提升训练效率的同时,对内存资源的增加相对可控,使得在有限的硬件资源下能够更高效地训练大规模模型。通过采用EPLB,在大规模专家并行的应用中,能够将GPU的利用率提升至80%以上,最大限度地减少训练时间。例如,在一个具有大量专家的MoE模型训练任务中,使用EPLB后,训练时间相比未使用时缩短了30% - 50%,大大提高了模型的训练效率,降低了训练成本,同时也提高了模型在推理阶段的响应速度和性能稳定性。原创 2025-03-04 20:54:45 · 3813 阅读 · 3 评论 -
deepseek指令使用方法总结
目录1.基础指令1.1直接提问1.2内容生成1.3总结与解释2.格式控制指令2.1指定输出格式2.2结构化输出3.参数调整指令3.1 控制输出长度3.2 调整风格与语气3.3温度参数(创造性控制)4.高级功能指令4.1多轮对话控制4.2角色扮演4.3逻辑运算与数据分析5.优化与修正指令5.1迭代优化5.2错误修正6.特殊场景指令6.1多语言支持6.2安全边界设置7.实用技巧7.1复合指令7.2优先级符号7.3参考范例8.常见问题处理DeepSeek-R1作为一款源自国内的创新性大型模型,被视作国产 AGI的原创 2025-02-17 18:56:39 · 3048 阅读 · 1 评论 -
DeepSeek本地部署
DeepSeek的高性价比策略降低了AI部署的门槛,使得更多企业能够将AI技术应用于边缘计算场景。并且随着算力部署成本的降低,以前不少集中在大型中心的算力需求,有望向更多的小型设备、边缘设备集中,这是因为,DeepSeek的轻量化模型能够适应从高端服务器到普通消费级设备的多种场景。这意味着,边缘计算设备,如智能网联设备、工业质检设备、智慧交通设备等,将能够更好地支持AI应用。在部署前,我们首先要了解不同规模的deepseek对硬件的要求:下面我们以1.5B为例,介绍如何在本地进行部署。原创 2025-02-08 17:21:50 · 2636 阅读 · 0 评论 -
大模型蒸馏技术的理论分析与应用
模型蒸馏(Model Distillation)是一种在深度学习中用于压缩模型和提高模型效率的技术。其核心思想是将一个复杂的、性能较高的教师模型(Teacher Model)的知识迁移到一个相对简单的学生模型(Student Model)中,使学生模型能够在保持较好性能的同时,具有更小的模型规模和更快的推理速度。:教师模型通常在大规模数据上进行训练,学习到了丰富的特征表示和知识。通过模型蒸馏,将教师模型的这些知识传递给学生模型,帮助学生模型更好地学习和泛化。原创 2025-02-01 03:32:22 · 1463 阅读 · 0 评论 -
DeepSeek-R1,DeepSeek-V3,DeepSeek-VL,DeepSeek-V2,DeepSeek-R1-Zero各个模型区别
DeepSeek-VL:DeepSeek-VL2 系列有 DeepSeek-VL2-Tiny、DeepSeek-VL2-Small 和 DeepSeek-VL2,分别具有 10 亿、28 亿和 45 亿个激活参数。DeepSeek-V2:基于高效且轻量级的框架 HAI-LLM 进行训练,采用 16-way zero-bubble pipeline 并行、8-way 专家并行和 ZeRO-1 数据并行。DeepSeek-VL:训练过程包括视觉-语言对齐、视觉 - 语言预训练、监督微调(SFT)三个阶段。原创 2025-01-29 23:07:55 · 11770 阅读 · 0 评论 -
DeepSeek-V3原理介绍与性能分析
DeepSeek-V3主要涉及到创新点包括混合专家(MoE)架构,多头潜在注意力(MLA)机制,多 Token 预测(MTP)训练目标,FP8混合精度训练框架,训练与部署效率的协同优化以及后训练阶段的创新知识蒸馏。原创 2025-01-26 15:28:50 · 5532 阅读 · 0 评论 -
大模型中Self-Attention与Flash-Attention原理概述
它不是预先计算完整的注意力矩阵,而是在计算小块输出时,根据需要动态地计算注意力分数和权重。例如,在计算一个小块Qi与其他小块Ki和Vj的交互时,仅计算当前小块所需的注意力分数和权重,并且在计算完成后,不存储完整的注意力矩阵,而是直接更新小块输出。例如,重复利用已经计算过的中间结果,避免重复计算相同的部分。在传统的自注意力计算中,需要先计算所有的注意力分数,然后进行 Softmax 归一化,最后计算加权求和。:在传统自注意力计算中,需要先计算完整的注意力矩阵,然后进行 Softmax 归一化,再计算输出。原创 2025-01-11 16:56:54 · 975 阅读 · 0 评论 -
常见大模型——LLaMA模型
LLaMA(Large Language Model Meta AI)是由Meta开发的一种大规模语言模型,旨在提高自然语言处理任务的性能。LLaMA基于Transformer机构,并经过大规模数据训练,以便在多种语言任务中表现出色。LLaMA在Transformer结构的基础上,采用前置层归一化(Pre-normalization)和RMSNorm归一化函数(Normalizing Function)、SwiGLU激活函数,并使用了旋转位置嵌入(RoPE)。原创 2025-01-06 19:07:36 · 1168 阅读 · 0 评论 -
大模型从业方向——数据/平台/算法/部署
GAN 通过生成器和判别器的对抗训练,能够生成逼真的图像。算法工程师不断改进 GAN 的架构和训练方法,例如,通过引入条件生成对抗网络(cGAN),可以根据给定的条件(如类别标签、文本描述)生成特定的图像。例如,在 Windows 上可能需要安装特定的 GPU 驱动和 C++ 运行时库,在 Linux 上可能需要配置正确的环境变量和软件包依赖,以支持模型的运行。例如,为了保证 GPU 服务器的稳定运行,需要强大的电力供应和高效的冷却系统,因为 GPU 在高负载运行时会消耗大量的电力并产生热量。原创 2025-01-04 21:56:37 · 1206 阅读 · 0 评论 -
提高大模型服务吞吐率常用方法总结——投机采样/增大batchsize/continuous batching
所以采用 draft-and-verify 的方式,使用 drafter(小参数模型)一次生成多个候选 tokens,然后让大参数模型对所有生成的 tokens 并行验证,达到一次生成多个 tokens 的目标,从而提高吞吐率。假设大模型生成一个 token 的时间为T1,小模型生成n个候选 tokens 的时间为T2,大模型验证个候选 tokens 的时间为T3,在理想情况下,当T2+T3=T1时,就可以在接近大模型生成一个 token 的时间里面生成了n个 tokens,从而提高吞吐率。原创 2025-01-03 17:03:50 · 1126 阅读 · 0 评论 -
大模型中的常用推理优化技术
大模型中的常用推理优化技术,详细介绍下低比特量化,分布式优化,算子优化,访存优化,服务并发优化,lookahead decoding,投机采样,美杜莎头等。下面分别对这些常用的大模型推理优化技术进行介绍。原创 2024-12-31 20:54:56 · 1187 阅读 · 0 评论