Chaos_Wang_-优快云博客

原创使用stable diffusion webui在本地搭建中文的AI绘图模型

最近一段时间大火的AI绘画引起了各界人士的关注，但是stable diffusion开源的都是英文的模型，本文参考封神榜团队开源的太乙模型以及相关代码，利用stable diffusion webui搭建一个中文的AI绘图模型，在本地实现AI绘画。

2022-12-07 16:20:10 26975 26

原创英伟达NVIDIA服务器显卡多实例技术（MIG）

多实例技术有点类似于vGPU，如果物理服务器安装的是vmware或者KVM这种虚拟机系统，那么如果想给每个虚拟机分配一张显卡显然显卡不够分，一般6U的服务器也就8张显卡，所以需要用到vGPU技术，将显卡虚拟化成多张显卡，而这玩意跟虚拟机系统一样是需要收费的，按照显卡数量进行授权收费。而如果物理服务器安装的不是虚拟机操作系统，例如安装的是Ubuntu系统，然后采用docker等容器技术，也是需要对显卡进行多实例划分的，提高显卡的利用率。英伟达服务器显卡多实例技术（MIG）

2022-12-06 17:04:17 12505 3

原创 nvidia-smi命令详解和一些高阶技巧介绍

在深度学习等场景中，nvidia-smi命令是我们经常接触到的一个命令，用来查看GPU的占用情况，可以说是一个必须要学会的命令了，普通用户一般用的比较多的就是nvidia-smi的命令，其实掌握了这一个命令也就能够覆盖绝大多数场景了，但是本质求真务实的态度，本文调研了相关资料，整理了一些比较常用的nvidia-smi命令的其他用法。nvidia-smi命令详解和一些高阶技巧介绍。

2022-12-05 17:44:06 25769 4

原创【计算机网络相关】内网穿透介绍以及使用FRP实现内网穿透Windows远程桌面

内网穿透介绍以及使用FRP实现内网穿透Windows远程桌面。利用内网穿透技术，将内网的一些设备的数据包进行转发，从而实现公网环境访问内网的设备。公网服务器充当的是一个数据交换的作用，我们访问公网IP，然后公网服务器将我们访问的数据转发到内网设备的IP，内网设备将数据在转发给公网服务器，公网服务器将数据转发给本地客户机，从而实现内网穿透，在任何地方访问内网设备。

2022-12-04 14:10:27 9891

原创【NLP相关】深入理解attention机制（产生、发展、原理、应用和代码实现）

attention机制并不是一个新概念，在很久之前（90年代）就有学者提出，其最早产生并且应用在计算机视觉（CV）领域，之后在自然语言处理（NLP）领域快速发展，最近又在CV领域火了起来。attention机制在深度学习各个领域都被广泛使用，尤其是CV和NLP任务中经常会出现attention机制的身影。本文将从原理角度深入分析attention机制。

2020-10-22 20:45:34 18790 2

原创 NLP高频面试题（三十）——LLama系列模型介绍，包括LLama LLama2和LLama3

本文深入介绍Meta推出的LLama系列模型，包括LLama、LLama2和LLama3，探讨了它们的技术创新、应用场景以及对大语言模型发展的重要推动作用。通过系统地回顾各代模型的进化过程，分析其核心特性与技术亮点，为读者提供全面且深入的理解。

2025-04-01 23:36:57 358

原创 NLP高频面试题（二十九）——大模型解码常见参数解析

本文系统地介绍了大语言模型解码过程中常用的参数，包括 top-k、top-p 和 temperature 等策略。文章从基础定义、优缺点分析、适用场景，到具体参数组合的应用实践，帮助读者深入理解如何通过有效设置解码参数，精准控制生成文本的质量和多样性，以更好地发挥大模型的优势。

2025-04-01 23:07:38 278

原创 NLP高频面试题（二十八）——Reward model是如何训练的，怎么训练一个比较好的Reward model

在强化学习领域，奖励模型是关键组件之一，旨在通过预测特定行为或输出的奖励值，指导智能体的学习方向。特别是在基于人类反馈的强化学习中，奖励模型通过整合人类的偏好信息，帮助强化学习算法更有效地优化策略，使生成的内容更符合人类的期望。

2025-03-31 21:48:15 560

原创 NLP高频面试题（二十七）——SFT有哪几种参数微调方法？有什么优缺点？

随着大语言模型的普及，高效微调方法逐渐成为研究热点。尤其在监督微调过程中，如何选择合适的参数高效微调（Parameter-Efficient Fine-Tuning，PEFT）方法成为关注重点。本文将梳理SFT中常用的几种参数微调方法及各自的优缺点。

2025-03-31 21:38:30 203

原创 NLP高频面试题（二十六）——RAG的retriever模块作用，原理和目前存在的挑战

在自然语言处理领域，检索增强生成（Retrieval-Augmented Generation，简称RAG）是一种将信息检索与文本生成相结合的技术，旨在提升模型的回答准确性和信息丰富度。其中，Retriever在RAG架构中扮演着关键角色，负责从外部知识库或文档集合中获取与输入查询相关的信息，为生成模块提供必要的上下文支持。

2025-03-30 23:21:14 252

原创 NLP高频面试题（二十五）——RAG的reranker模块结果，原理和目前存在的挑战

在人工智能领域，检索增强生成（Retrieval-Augmented Generation，简称RAG）技术正日益受到关注。其中，Reranker模块在提升检索结果质量方面发挥着关键作用。本文将详细探讨Reranker的作用、工作原理以及当前面临的挑战。

2025-03-30 23:17:45 133

原创 NLP高频面试题（二十四）——RAG相关内容简介

检索增强生成（Retrieval-Augmented Generation，简称 RAG）是一种将信息检索与生成模型相结合的技术，旨在提升大型语言模型的响应准确性、相关性和时效性。通过在生成过程中引入外部知识，RAG 能够有效弥补 LLM 在知识局限性、幻觉问题和数据时效性等方面的不足。

2025-03-29 18:11:00 446

原创 NLP高频面试题（二十三）对抗训练的发展脉络，原理，演化路径

对抗训练（Adversarial Training）作为提升深度学习模型鲁棒性的重要技术，近年来备受关注。本文系统梳理了对抗训练的发展历程、核心原理和演化路径，并详细分析了当前主流的对抗训练方法，包括FGSM、FGM、PGD和FreeAT，帮助读者深入理解不同方法的适用场景及其优势与不足。本文将从计算机视觉出发，详细阐述对抗训练的发展脉络、基本原理、演化路径，并深入解析FGSM、FGM、PGD、FreeAT等常见对抗训练方法的原理、优缺点，以及模型在攻击阶段的不同应对策略。

2025-03-29 18:02:32 755

原创 NLP高频面试题（二十二）——deepseek论文中的的GRPO训练原理、和PPO相比有哪些改变，这些改进有什么作用

大模型的强化学习对齐（RLHF）阶段常采用近端策略优化算法PPO（Proximal Policy Optimization）来优化模型，使其输出更符合人类偏好。然而，PPO在大模型上的应用也暴露出一些问题，例如需要训练一个额外的价值网络（critic）来估计策略的价值，这不仅增加了内存和算力开销，也给训练稳定性带来了挑战。在近期的DeepSeek论文中，研究者提出了一种改进的策略优化方法GRPO（Group Relative Policy Optimization，群体相对策略优化）。

2025-03-28 23:32:20 723

原创 NLP高频面试题（二十一）——deepseek V1-V3 分别有哪些改进，这些改进是如何对模型产生影响的

从 DeepSeek V1 到 V3，短短一年时间内，这一开源模型系列在架构设计、训练规模和能力表现上实现了跨越式发展。V1 时期，研究团队以较低的算力成本奠定了模型基础，通过增加深度、优化超参数和加入更多中文及代码数据，使模型性能超越了同规模的主流开源模型。V2 版本大胆引入 MoE 稀疏架构和 MLA 注意力机制，将模型规模提升数倍的同时显著降低了训练和推理的单位成本；由此带来的性能提升，使开源模型首次逼近了闭源模型的水准。

2025-03-28 23:10:50 968

原创 NLP高频面试题（二十）——flash attention原理

FlashAttention是一种针对Transformer模型中自注意力机制的优化算法，旨在提高计算效率并降低内存占用，特别适用于处理长序列任务。在Transformer架构中，自注意力机制的计算复杂度和内存需求随着序列长度的平方增长。这意味着当处理较长序列时，计算和内存负担会显著增加，导致模型训练和推理的效率降低。

2025-03-27 21:48:04 517

原创 NLP高频面试题（十九）——VLLM推理加速原理

随着大语言模型的快速发展，其推理效率逐渐成为应用落地的关键瓶颈。vLLM作为近年来备受关注的LLM推理框架，以其高效的推理性能脱颖而出。本文将深入浅出地介绍vLLM背后的两大核心技术：Continuous Batching 和 PagedAttention。

2025-03-27 21:36:27 576

原创 NLP高频面试题（十八）——什么是prefill和decoder分离架构

Prefill-Decoder 分离架构，简单来说就是将大模型推理流程中**“读取输入”和“生成输出”这两部分拆开**，各自优化、协同工作。对于模型服务厂商而言，这是在后GPT时代追求高效部署的一大创新趋势。从Moonshot Kimi的Mooncake架构可以看到，得益于这一思路，他们在实际业务中取得了显著的性能提升和成本节约。标准化与开源生态：随着Mooncake等项目开源，预填充-解码分离架构有望形成标准化方案。

2025-03-26 23:08:25 1827

原创 NLP高频面试题（十七）——什么是KV Cache

KV Cache，全称为 Key-Value Cache，是在Transformer模型推理过程中，为减少重复计算、降低内存开销而设计的一种缓存机制。Transformer 模型中，每生成一个新词（token）时，都需要计算该词与前面所有词之间的注意力（attention）。注意力计算涉及 Query(Q)、Key(K) 和 Value(V) 三个张量，其中Key 和 Value 对于已生成的 token 是不变的，只有 Query 会随每次生成而更新。

2025-03-26 22:25:34 929

原创 NLP高频面试题（十六）——deepspeed原理

近年来，随着深度学习模型尤其是大型语言模型（LLM）的迅猛发展，训练所需的资源与计算能力不断攀升。单个GPU或节点的资源已很难满足数百亿甚至上万亿参数模型的训练需求，这种情况下，多卡甚至多节点分布式训练技术应运而生。然而，传统的PyTorch自带的分布式训练工具在显存占用、训练效率和可扩展性上存在诸多限制。这正是Deepspeed诞生的重要背景。本文将深入探讨Deepspeed的核心技术，分析其在大型模型训练中的重要作用。

2025-03-25 23:15:34 718

原创 NLP高频面试题（十五）——有哪几种分布式训练方式

随着深度学习模型规模的迅速增长，单个设备往往无法满足训练需求，因此分布式训练技术成为了业界的热点和研究前沿。本文将介绍几种常见的分布式训练方法。

2025-03-25 22:57:38 403

原创 NLP高频面试题（十四）——DPO、PPO等强化学习训练方法介绍

强化学习与监督学习、无监督学习不同，它不依赖大量标注数据，而是通过与环境交互来获得反馈奖励，以此来训练智能体学习最佳决策策略。简单来说，强化学习的本质是智能体通过与环境互动，不断试错，从而优化策略以实现总奖励最大化。无需大量标注数据，但通常需要大量交互数据；处理序列决策问题，当前决策影响后续状态；学习目标是最大化长期累积奖励，而非单步预测精度。PPO（Proximal Policy Optimization）是一种广泛应用的强化学习算法，属于策略梯度（Policy Gradient）方法。

2025-03-24 22:52:32 779

原创 NLP高频面试题（十三）——什么是大模型幻觉，如何解决大模型幻觉

大模型幻觉（Hallucination）是指大型语言模型在生成文本时，虽然看似流畅、合理，但实际内容却可能毫无根据甚至与事实相悖。这种现象俗称为“一本正经的胡说八道”，严重影响了模型生成内容的可信度。比如，在医疗咨询应用中，如果模型产生幻觉并生成错误诊断信息，可能危及患者生命安全。因此，了解并有效应对大模型幻觉变得非常必要。不过值得注意的是，幻觉并非完全有害，在某些需要创造力的情景下，如艺术创作或故事生成，适度的幻觉可能激发创新和想象力。

2025-03-24 22:45:45 790

原创 NLP高频面试题（十二）——Lora微调的原理、什么是Qlora

LoRA（Low-Rank Adaptation）是一种针对大型预训练模型的微调方法，其核心思想是通过低秩矩阵分解的方式高效实现模型参数的微调。传统的微调方法通常需要更新模型所有的参数，而LoRA则通过新增一个并行的低秩结构来间接实现模型参数的更新。QLoRA（Quantized LoRA）是在LoRA基础上提出的一种创新技术，旨在进一步降低模型微调时的内存使用，通过量化预训练模型权重至4-bit，同时结合低秩适配器（LoRA）实现高效的微调。一种针对正态分布数据的最优4-bit量化方法，精度损失极小。

2025-03-23 20:58:54 817

自然语言处理文本匹配任务baseline

空空如也