自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

WeLearnNLP

对自己学生时代学到的知识的总结,多有不足,稍显稚嫩,请大家批评指正。

  • 博客(179)
  • 收藏
  • 关注

原创 使用stable diffusion webui在本地搭建中文的AI绘图模型

最近一段时间大火的AI绘画引起了各界人士的关注,但是stable diffusion开源的都是英文的模型,本文参考封神榜团队开源的太乙模型以及相关代码,利用stable diffusion webui搭建一个中文的AI绘图模型,在本地实现AI绘画。

2022-12-07 16:20:10 26975 26

原创 英伟达NVIDIA服务器显卡多实例技术(MIG)

多实例技术有点类似于vGPU,如果物理服务器安装的是vmware或者KVM这种虚拟机系统,那么如果想给每个虚拟机分配一张显卡显然显卡不够分,一般6U的服务器也就8张显卡,所以需要用到vGPU技术,将显卡虚拟化成多张显卡,而这玩意跟虚拟机系统一样是需要收费的,按照显卡数量进行授权收费。而如果物理服务器安装的不是虚拟机操作系统,例如安装的是Ubuntu系统,然后采用docker等容器技术,也是需要对显卡进行多实例划分的,提高显卡的利用率。英伟达服务器显卡多实例技术(MIG)

2022-12-06 17:04:17 12505 3

原创 nvidia-smi命令详解和一些高阶技巧介绍

在深度学习等场景中,nvidia-smi命令是我们经常接触到的一个命令,用来查看GPU的占用情况,可以说是一个必须要学会的命令了,普通用户一般用的比较多的就是nvidia-smi的命令,其实掌握了这一个命令也就能够覆盖绝大多数场景了,但是本质求真务实的态度,本文调研了相关资料,整理了一些比较常用的nvidia-smi命令的其他用法。nvidia-smi命令详解和一些高阶技巧介绍。

2022-12-05 17:44:06 25769 4

原创 【计算机网络相关】内网穿透介绍以及使用FRP实现内网穿透Windows远程桌面

内网穿透介绍以及使用FRP实现内网穿透Windows远程桌面。利用内网穿透技术,将内网的一些设备的数据包进行转发,从而实现公网环境访问内网的设备。公网服务器充当的是一个数据交换的作用,我们访问公网IP,然后公网服务器将我们访问的数据转发到内网设备的IP,内网设备将数据在转发给公网服务器,公网服务器将数据转发给本地客户机,从而实现内网穿透,在任何地方访问内网设备。

2022-12-04 14:10:27 9891

原创 【NLP相关】深入理解attention机制(产生、发展、原理、应用和代码实现)

attention机制并不是一个新概念,在很久之前(90年代)就有学者提出,其最早产生并且应用在计算机视觉(CV)领域,之后在自然语言处理(NLP)领域快速发展,最近又在CV领域火了起来。attention机制在深度学习各个领域都被广泛使用,尤其是CV和NLP任务中经常会出现attention机制的身影。本文将从原理角度深入分析attention机制。

2020-10-22 20:45:34 18790 2

原创 NLP高频面试题(三十)——LLama系列模型介绍,包括LLama LLama2和LLama3

本文深入介绍Meta推出的LLama系列模型,包括LLama、LLama2和LLama3,探讨了它们的技术创新、应用场景以及对大语言模型发展的重要推动作用。通过系统地回顾各代模型的进化过程,分析其核心特性与技术亮点,为读者提供全面且深入的理解。

2025-04-01 23:36:57 358

原创 NLP高频面试题(二十九)——大模型解码常见参数解析

本文系统地介绍了大语言模型解码过程中常用的参数,包括 top-k、top-p 和 temperature 等策略。文章从基础定义、优缺点分析、适用场景,到具体参数组合的应用实践,帮助读者深入理解如何通过有效设置解码参数,精准控制生成文本的质量和多样性,以更好地发挥大模型的优势。

2025-04-01 23:07:38 278

原创 NLP高频面试题(二十八)——Reward model是如何训练的,怎么训练一个比较好的Reward model

在强化学习领域,奖励模型是关键组件之一,旨在通过预测特定行为或输出的奖励值,指导智能体的学习方向。特别是在基于人类反馈的强化学习中,奖励模型通过整合人类的偏好信息,帮助强化学习算法更有效地优化策略,使生成的内容更符合人类的期望。

2025-03-31 21:48:15 560

原创 NLP高频面试题(二十七)——SFT有哪几种参数微调方法?有什么优缺点?

随着大语言模型的普及,高效微调方法逐渐成为研究热点。尤其在监督微调过程中,如何选择合适的参数高效微调(Parameter-Efficient Fine-Tuning,PEFT)方法成为关注重点。本文将梳理SFT中常用的几种参数微调方法及各自的优缺点。

2025-03-31 21:38:30 203

原创 NLP高频面试题(二十六)——RAG的retriever模块作用,原理和目前存在的挑战

在自然语言处理领域,检索增强生成(Retrieval-Augmented Generation,简称RAG)是一种将信息检索与文本生成相结合的技术,旨在提升模型的回答准确性和信息丰富度。其中,Retriever在RAG架构中扮演着关键角色,负责从外部知识库或文档集合中获取与输入查询相关的信息,为生成模块提供必要的上下文支持。

2025-03-30 23:21:14 252

原创 NLP高频面试题(二十五)——RAG的reranker模块结果,原理和目前存在的挑战

在人工智能领域,检索增强生成(Retrieval-Augmented Generation,简称RAG)技术正日益受到关注。其中,Reranker模块在提升检索结果质量方面发挥着关键作用。本文将详细探讨Reranker的作用、工作原理以及当前面临的挑战。

2025-03-30 23:17:45 133

原创 NLP高频面试题(二十四)——RAG相关内容简介

检索增强生成(Retrieval-Augmented Generation,简称 RAG)是一种将信息检索与生成模型相结合的技术,旨在提升大型语言模型的响应准确性、相关性和时效性。通过在生成过程中引入外部知识,RAG 能够有效弥补 LLM 在知识局限性、幻觉问题和数据时效性等方面的不足。

2025-03-29 18:11:00 446

原创 NLP高频面试题(二十三)对抗训练的发展脉络,原理,演化路径

对抗训练(Adversarial Training)作为提升深度学习模型鲁棒性的重要技术,近年来备受关注。本文系统梳理了对抗训练的发展历程、核心原理和演化路径,并详细分析了当前主流的对抗训练方法,包括FGSM、FGM、PGD和FreeAT,帮助读者深入理解不同方法的适用场景及其优势与不足。本文将从计算机视觉出发,详细阐述对抗训练的发展脉络、基本原理、演化路径,并深入解析FGSM、FGM、PGD、FreeAT等常见对抗训练方法的原理、优缺点,以及模型在攻击阶段的不同应对策略。

2025-03-29 18:02:32 755

原创 NLP高频面试题(二十二)——deepseek论文中的的GRPO训练原理、和PPO相比有哪些改变,这些改进有什么作用

大模型的强化学习对齐(RLHF)阶段常采用近端策略优化算法PPO(Proximal Policy Optimization)来优化模型,使其输出更符合人类偏好。然而,PPO在大模型上的应用也暴露出一些问题,例如需要训练一个额外的价值网络(critic)来估计策略的价值,这不仅增加了内存和算力开销,也给训练稳定性带来了挑战。在近期的DeepSeek论文中,研究者提出了一种改进的策略优化方法GRPO(Group Relative Policy Optimization,群体相对策略优化)。

2025-03-28 23:32:20 723

原创 NLP高频面试题(二十一)——deepseek V1-V3 分别有哪些改进,这些改进是如何对模型产生影响的

从 DeepSeek V1 到 V3,短短一年时间内,这一开源模型系列在架构设计、训练规模和能力表现上实现了跨越式发展。V1 时期,研究团队以较低的算力成本奠定了模型基础,通过增加深度、优化超参数和加入更多中文及代码数据,使模型性能超越了同规模的主流开源模型。V2 版本大胆引入 MoE 稀疏架构和 MLA 注意力机制,将模型规模提升数倍的同时显著降低了训练和推理的单位成本;由此带来的性能提升,使开源模型首次逼近了闭源模型的水准。

2025-03-28 23:10:50 968

原创 NLP高频面试题(二十)——flash attention原理

FlashAttention是一种针对Transformer模型中自注意力机制的优化算法,旨在提高计算效率并降低内存占用,特别适用于处理长序列任务。在Transformer架构中,自注意力机制的计算复杂度和内存需求随着序列长度的平方增长。这意味着当处理较长序列时,计算和内存负担会显著增加,导致模型训练和推理的效率降低。

2025-03-27 21:48:04 517

原创 NLP高频面试题(十九)——VLLM推理加速原理

随着大语言模型的快速发展,其推理效率逐渐成为应用落地的关键瓶颈。vLLM作为近年来备受关注的LLM推理框架,以其高效的推理性能脱颖而出。本文将深入浅出地介绍vLLM背后的两大核心技术:Continuous Batching 和 PagedAttention。

2025-03-27 21:36:27 576

原创 NLP高频面试题(十八)——什么是prefill和decoder分离架构

Prefill-Decoder 分离架构,简单来说就是将大模型推理流程中**“读取输入”和“生成输出”这两部分拆开**,各自优化、协同工作。对于模型服务厂商而言,这是在后GPT时代追求高效部署的一大创新趋势。从Moonshot Kimi的Mooncake架构可以看到,得益于这一思路,他们在实际业务中取得了显著的性能提升和成本节约。标准化与开源生态:随着Mooncake等项目开源,预填充-解码分离架构有望形成标准化方案。

2025-03-26 23:08:25 1827

原创 NLP高频面试题(十七)——什么是KV Cache

KV Cache,全称为 Key-Value Cache,是在Transformer模型推理过程中,为减少重复计算、降低内存开销而设计的一种缓存机制。Transformer 模型中,每生成一个新词(token)时,都需要计算该词与前面所有词之间的注意力(attention)。注意力计算涉及 Query(Q)、Key(K) 和 Value(V) 三个张量,其中Key 和 Value 对于已生成的 token 是不变的,只有 Query 会随每次生成而更新。

2025-03-26 22:25:34 929

原创 NLP高频面试题(十六)——deepspeed原理

近年来,随着深度学习模型尤其是大型语言模型(LLM)的迅猛发展,训练所需的资源与计算能力不断攀升。单个GPU或节点的资源已很难满足数百亿甚至上万亿参数模型的训练需求,这种情况下,多卡甚至多节点分布式训练技术应运而生。然而,传统的PyTorch自带的分布式训练工具在显存占用、训练效率和可扩展性上存在诸多限制。这正是Deepspeed诞生的重要背景。本文将深入探讨Deepspeed的核心技术,分析其在大型模型训练中的重要作用。

2025-03-25 23:15:34 718

原创 NLP高频面试题(十五)——有哪几种分布式训练方式

随着深度学习模型规模的迅速增长,单个设备往往无法满足训练需求,因此分布式训练技术成为了业界的热点和研究前沿。本文将介绍几种常见的分布式训练方法。

2025-03-25 22:57:38 403

原创 NLP高频面试题(十四)——DPO、PPO等强化学习训练方法介绍

强化学习与监督学习、无监督学习不同,它不依赖大量标注数据,而是通过与环境交互来获得反馈奖励,以此来训练智能体学习最佳决策策略。简单来说,强化学习的本质是智能体通过与环境互动,不断试错,从而优化策略以实现总奖励最大化。无需大量标注数据,但通常需要大量交互数据;处理序列决策问题,当前决策影响后续状态;学习目标是最大化长期累积奖励,而非单步预测精度。PPO(Proximal Policy Optimization)是一种广泛应用的强化学习算法,属于策略梯度(Policy Gradient)方法。

2025-03-24 22:52:32 779

原创 NLP高频面试题(十三)——什么是大模型幻觉,如何解决大模型幻觉

大模型幻觉(Hallucination)是指大型语言模型在生成文本时,虽然看似流畅、合理,但实际内容却可能毫无根据甚至与事实相悖。这种现象俗称为“一本正经的胡说八道”,严重影响了模型生成内容的可信度。比如,在医疗咨询应用中,如果模型产生幻觉并生成错误诊断信息,可能危及患者生命安全。因此,了解并有效应对大模型幻觉变得非常必要。不过值得注意的是,幻觉并非完全有害,在某些需要创造力的情景下,如艺术创作或故事生成,适度的幻觉可能激发创新和想象力。

2025-03-24 22:45:45 790

原创 NLP高频面试题(十二)——Lora微调的原理、什么是Qlora

LoRA(Low-Rank Adaptation)是一种针对大型预训练模型的微调方法,其核心思想是通过低秩矩阵分解的方式高效实现模型参数的微调。传统的微调方法通常需要更新模型所有的参数,而LoRA则通过新增一个并行的低秩结构来间接实现模型参数的更新。QLoRA(Quantized LoRA)是在LoRA基础上提出的一种创新技术,旨在进一步降低模型微调时的内存使用,通过量化预训练模型权重至4-bit,同时结合低秩适配器(LoRA)实现高效的微调。一种针对正态分布数据的最优4-bit量化方法,精度损失极小。

2025-03-23 20:58:54 817

原创 NLP高频面试题(十一)——RLHF的流程有哪些

RLHF 是一种利用人类反馈引导语言模型优化生成结果的方法,它结合了监督学习和强化学习的优点,以提升模型生成结果的质量、连贯性和安全性。

2025-03-23 20:48:49 539

原创 NLP高频面试题(十)——目前常见的几种大模型架构是啥样的

随着Transformer模型的提出与发展,语言大模型迅速崛起,已经成为人工智能领域最为关注的热点之一。本文将为大家详细解析几种目前常见的大模型架构,帮助读者理解其核心差异及适用场景。

2025-03-22 23:58:15 949

原创 NLP高频面试题(九)——大模型常见的几种解码方案

在大模型的推理过程中,解码策略直接影响生成文本的质量和连贯性。本文深入解析了几种常见的解码方案,包括贪心搜索(Greedy Search)、束搜索(Beam Search)以及采样优化方法(Top-k、Top-p、Temperature)。我们不仅介绍了它们的原理,还对比了各自的优缺点,帮助你更好地理解和应用这些解码策略。

2025-03-22 23:37:05 744

原创 NLP高频面试题(八)——GPT三个版本的区别

本博客致力于解析GPT模型的演进历程,详细对比GPT-1、GPT-2和GPT-3的核心区别。从架构优化到注意力机制的革新,我们将深入剖析每一代模型的技术突破,帮助读者理解GPT系列的演化逻辑及其在自然语言处理领域的重大影响。

2025-03-21 14:35:29 487

原创 NLP高频面试题(七)——GPT和Bert的mask有什么区别?

在自然语言处理模型的预训练过程中,mask策略直接影响模型的学习效果。BERT和GPT作为两种典型的预训练模型,它们在mask方法上存在显著差异。本篇博客将深入探讨BERT的token级mask及其局限性,以及GPT所采用的mask策略。

2025-03-21 14:23:43 1113

原创 NLP高频面试题(六)——decoder-only、encoder-only和encoder-decoder的区别与联系

随着人工智能技术的迅猛发展,语言模型已经成为自然语言处理领域的关键技术之一。本文将深入探讨decoder-only、encoder-only 和 encoder-decoder 三种语言模型架构的特点、适用场景及其相互之间的异同。

2025-03-19 22:18:14 455

原创 Atom of Thoughts for Markov LLM Test-Time Scaling论文解读

近年来,大型语言模型在训练规模的扩展上取得了显著的性能提升。然而,随着模型规模和数据量的增长遇到瓶颈,测试时扩展(test-time scaling)成为进一步提升模型能力的新方向。传统的推理方法,如思维链(Chain of Thought, CoT)和思维树(Tree of Thought, ToT),在推理过程中过度依赖完整的历史信息,导致计算资源浪费,并可能干扰有效的推理。

2025-03-19 22:09:12 366

原创 NLP高频面试题(五)——BERT的基本结构介绍、预训练任务、下游任务

BERT(Bidirectional Encoder Representations from Transformers)作为谷歌提出的一种预训练语言模型,在自然语言处理(NLP)领域引发了深刻变革。本文将深入介绍BERT的核心结构,包括其创新性的双向Transformer编码器架构,并详细探讨BERT如何利用Masked Language Model(MLM)和Next Sentence Prediction(NSP)两个预训练任务,实现对语言深层次语义的有效捕捉。

2025-03-18 23:55:50 494

原创 NLP高频面试题(四)——BN和LN的区别与联系,为什么attention要用LN

本文将深入探讨深度学习中两种广泛应用的归一化技术——Batch Normalization(BN)与Layer Normalization(LN)的区别与联系,并着重分析为什么Transformer模型中的Attention机制更加适合使用LN。通过具体的原理对比和适用场景的讨论,帮助深入理解二者在不同模型结构中的选择依据和实际作用。

2025-03-18 23:45:57 835

原创 NLP高频面试题(二)——LSTM、GRU和Transformer结构的区别与联系,优缺点分别是什么?

随着深度学习的迅猛发展,序列模型逐渐成为人工智能领域的重要组成部分,其中LSTM、GRU和Transformer是最具代表性的三种结构。LSTM与GRU作为经典的循环神经网络结构,曾在处理序列数据上风靡一时,而Transformer则以其独特的自注意力机制掀起了新一轮的技术革命。本文将系统地介绍LSTM、GRU与Transformer这三种网络结构,深入分析它们之间的区别与联系,并清晰地归纳各自的优缺点,帮助读者更好地理解与选择适合自身任务的模型结构。

2025-03-17 22:43:11 557

原创 NLP高频面试题(三)——普通RNN的梯度消失和梯度爆炸问题

普通循环神经网络在处理长序列数据时,经常面临梯度消失和梯度爆炸问题。梯度消失是指梯度在反向传播中逐步变小,使模型难以学习远距离的信息;而梯度爆炸则是梯度异常增大,导致训练过程不稳定甚至崩溃。这两个问题严重制约了RNN模型的性能,因此推动了LSTM、GRU以及Transformer等新型神经网络结构的诞生与发展。

2025-03-17 22:38:34 791

原创 NLP高频面试题(一)——Transformer的基本结构、作用和代码实现

本文详细介绍了Transformer模型的基本结构和PyTorch代码实现过程。首先解析了Transformer的核心组成部分,包括嵌入层、多头自注意力机制、位置编码、前馈神经网络、编码器和解码器等模块,并通过清晰的代码示例逐步展示了如何在PyTorch中构建完整的Transformer模型。文末提供了一个可运行的简单示例,帮助读者快速理解并实践Transformer的核心原理与实现方法。

2025-03-14 23:17:28 489

原创 VS Code如何使用服务器的Python开发环境

在当今的开发世界中,远程开发已经变得越来越普遍。特别是对于需要大量计算资源或特定配置的项目,使用服务器的开发环境可以大大提高效率。Visual Studio Code(VS Code)是一个功能强大的代码编辑器,支持远程开发。在本文中,我们将探讨如何在VS Code中设置和使用服务器上的Python开发环境。

2023-11-15 21:45:19 777

原创 Ubuntu中安装R语言环境并在jupyter kernel里面增加R kernel

本篇博客旨在指导读者如何在Ubuntu操作系统中安装R语言环境。Ubuntu,作为一款广受欢迎的Linux发行版,因其稳定性、安全性和易用性而被广泛使用。在Ubuntu中安装R语言,将为用户提供一个强大且灵活的环境,用于进行数据分析和统计计算。

2023-11-13 22:31:35 1552

原创 jupyter lab常用插件集合

本篇博客旨在为读者介绍一系列常用且强大的 Jupyter Lab 插件。无论是初学者还是资深用户,你都会在这些插件中发现可以提升你日常工作效率和体验的宝藏。我们将深入探索每个插件的功能、安装方法和使用技巧,帮助你构建一个更加高效、定制化的 Jupyter Lab 工作环境。

2023-11-13 22:19:33 4221

原创 jupyter lab配置列表清单

Jupyter Notebook和Jupyter Lab提供了广泛的配置选项,允许用户根据自己的需求定制运行环境。这些配置项涉及了从日志设置、安全性选项、内核管理,到内容管理等多个方面,每项配置都有其特定的作用和默认值。这个配置文件是Jupyter环境的核心,正确配置这些选项将帮助你创建一个安全、高效、符合个人需求的Jupyter工作环境。根据你的具体使用场景(如教学、数据分析、机器学习等),可能需要调整不同的配置项以获得最佳体验。

2023-11-12 21:59:41 1031

自然语言处理文本匹配任务baseline

随着自然语言技术以及预训练语言模型的不断发展,文本分类模型的性能也不断提升,本资源基于预训练语言模型,实现一个文本分类模型的baseline,虽然说是baseline,但是该baseline帮助我在各大人工智能竞赛上取得了top成绩,总共拿到过超过30W的比赛奖金。此外,作为案例,本资源基于传统bert模型,使用中文文本匹配lcqmc作为训练和验证数据集,构造了一个文本匹配模型,该模型线上线下均取得了不错的效果。

2023-01-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除