- 博客(179)
- 收藏
- 关注

原创 使用stable diffusion webui在本地搭建中文的AI绘图模型
最近一段时间大火的AI绘画引起了各界人士的关注,但是stable diffusion开源的都是英文的模型,本文参考封神榜团队开源的太乙模型以及相关代码,利用stable diffusion webui搭建一个中文的AI绘图模型,在本地实现AI绘画。
2022-12-07 16:20:10
26975
26

原创 英伟达NVIDIA服务器显卡多实例技术(MIG)
多实例技术有点类似于vGPU,如果物理服务器安装的是vmware或者KVM这种虚拟机系统,那么如果想给每个虚拟机分配一张显卡显然显卡不够分,一般6U的服务器也就8张显卡,所以需要用到vGPU技术,将显卡虚拟化成多张显卡,而这玩意跟虚拟机系统一样是需要收费的,按照显卡数量进行授权收费。而如果物理服务器安装的不是虚拟机操作系统,例如安装的是Ubuntu系统,然后采用docker等容器技术,也是需要对显卡进行多实例划分的,提高显卡的利用率。英伟达服务器显卡多实例技术(MIG)
2022-12-06 17:04:17
12505
3

原创 nvidia-smi命令详解和一些高阶技巧介绍
在深度学习等场景中,nvidia-smi命令是我们经常接触到的一个命令,用来查看GPU的占用情况,可以说是一个必须要学会的命令了,普通用户一般用的比较多的就是nvidia-smi的命令,其实掌握了这一个命令也就能够覆盖绝大多数场景了,但是本质求真务实的态度,本文调研了相关资料,整理了一些比较常用的nvidia-smi命令的其他用法。nvidia-smi命令详解和一些高阶技巧介绍。
2022-12-05 17:44:06
25769
4

原创 【计算机网络相关】内网穿透介绍以及使用FRP实现内网穿透Windows远程桌面
内网穿透介绍以及使用FRP实现内网穿透Windows远程桌面。利用内网穿透技术,将内网的一些设备的数据包进行转发,从而实现公网环境访问内网的设备。公网服务器充当的是一个数据交换的作用,我们访问公网IP,然后公网服务器将我们访问的数据转发到内网设备的IP,内网设备将数据在转发给公网服务器,公网服务器将数据转发给本地客户机,从而实现内网穿透,在任何地方访问内网设备。
2022-12-04 14:10:27
9891

原创 【NLP相关】深入理解attention机制(产生、发展、原理、应用和代码实现)
attention机制并不是一个新概念,在很久之前(90年代)就有学者提出,其最早产生并且应用在计算机视觉(CV)领域,之后在自然语言处理(NLP)领域快速发展,最近又在CV领域火了起来。attention机制在深度学习各个领域都被广泛使用,尤其是CV和NLP任务中经常会出现attention机制的身影。本文将从原理角度深入分析attention机制。
2020-10-22 20:45:34
18790
2
原创 NLP高频面试题(三十)——LLama系列模型介绍,包括LLama LLama2和LLama3
本文深入介绍Meta推出的LLama系列模型,包括LLama、LLama2和LLama3,探讨了它们的技术创新、应用场景以及对大语言模型发展的重要推动作用。通过系统地回顾各代模型的进化过程,分析其核心特性与技术亮点,为读者提供全面且深入的理解。
2025-04-01 23:36:57
358
原创 NLP高频面试题(二十九)——大模型解码常见参数解析
本文系统地介绍了大语言模型解码过程中常用的参数,包括 top-k、top-p 和 temperature 等策略。文章从基础定义、优缺点分析、适用场景,到具体参数组合的应用实践,帮助读者深入理解如何通过有效设置解码参数,精准控制生成文本的质量和多样性,以更好地发挥大模型的优势。
2025-04-01 23:07:38
278
原创 NLP高频面试题(二十八)——Reward model是如何训练的,怎么训练一个比较好的Reward model
在强化学习领域,奖励模型是关键组件之一,旨在通过预测特定行为或输出的奖励值,指导智能体的学习方向。特别是在基于人类反馈的强化学习中,奖励模型通过整合人类的偏好信息,帮助强化学习算法更有效地优化策略,使生成的内容更符合人类的期望。
2025-03-31 21:48:15
560
原创 NLP高频面试题(二十七)——SFT有哪几种参数微调方法?有什么优缺点?
随着大语言模型的普及,高效微调方法逐渐成为研究热点。尤其在监督微调过程中,如何选择合适的参数高效微调(Parameter-Efficient Fine-Tuning,PEFT)方法成为关注重点。本文将梳理SFT中常用的几种参数微调方法及各自的优缺点。
2025-03-31 21:38:30
203
原创 NLP高频面试题(二十六)——RAG的retriever模块作用,原理和目前存在的挑战
在自然语言处理领域,检索增强生成(Retrieval-Augmented Generation,简称RAG)是一种将信息检索与文本生成相结合的技术,旨在提升模型的回答准确性和信息丰富度。其中,Retriever在RAG架构中扮演着关键角色,负责从外部知识库或文档集合中获取与输入查询相关的信息,为生成模块提供必要的上下文支持。
2025-03-30 23:21:14
252
原创 NLP高频面试题(二十五)——RAG的reranker模块结果,原理和目前存在的挑战
在人工智能领域,检索增强生成(Retrieval-Augmented Generation,简称RAG)技术正日益受到关注。其中,Reranker模块在提升检索结果质量方面发挥着关键作用。本文将详细探讨Reranker的作用、工作原理以及当前面临的挑战。
2025-03-30 23:17:45
133
原创 NLP高频面试题(二十四)——RAG相关内容简介
检索增强生成(Retrieval-Augmented Generation,简称 RAG)是一种将信息检索与生成模型相结合的技术,旨在提升大型语言模型的响应准确性、相关性和时效性。通过在生成过程中引入外部知识,RAG 能够有效弥补 LLM 在知识局限性、幻觉问题和数据时效性等方面的不足。
2025-03-29 18:11:00
446
原创 NLP高频面试题(二十三)对抗训练的发展脉络,原理,演化路径
对抗训练(Adversarial Training)作为提升深度学习模型鲁棒性的重要技术,近年来备受关注。本文系统梳理了对抗训练的发展历程、核心原理和演化路径,并详细分析了当前主流的对抗训练方法,包括FGSM、FGM、PGD和FreeAT,帮助读者深入理解不同方法的适用场景及其优势与不足。本文将从计算机视觉出发,详细阐述对抗训练的发展脉络、基本原理、演化路径,并深入解析FGSM、FGM、PGD、FreeAT等常见对抗训练方法的原理、优缺点,以及模型在攻击阶段的不同应对策略。
2025-03-29 18:02:32
755
原创 NLP高频面试题(二十二)——deepseek论文中的的GRPO训练原理、和PPO相比有哪些改变,这些改进有什么作用
大模型的强化学习对齐(RLHF)阶段常采用近端策略优化算法PPO(Proximal Policy Optimization)来优化模型,使其输出更符合人类偏好。然而,PPO在大模型上的应用也暴露出一些问题,例如需要训练一个额外的价值网络(critic)来估计策略的价值,这不仅增加了内存和算力开销,也给训练稳定性带来了挑战。在近期的DeepSeek论文中,研究者提出了一种改进的策略优化方法GRPO(Group Relative Policy Optimization,群体相对策略优化)。
2025-03-28 23:32:20
723
原创 NLP高频面试题(二十一)——deepseek V1-V3 分别有哪些改进,这些改进是如何对模型产生影响的
从 DeepSeek V1 到 V3,短短一年时间内,这一开源模型系列在架构设计、训练规模和能力表现上实现了跨越式发展。V1 时期,研究团队以较低的算力成本奠定了模型基础,通过增加深度、优化超参数和加入更多中文及代码数据,使模型性能超越了同规模的主流开源模型。V2 版本大胆引入 MoE 稀疏架构和 MLA 注意力机制,将模型规模提升数倍的同时显著降低了训练和推理的单位成本;由此带来的性能提升,使开源模型首次逼近了闭源模型的水准。
2025-03-28 23:10:50
968
原创 NLP高频面试题(二十)——flash attention原理
FlashAttention是一种针对Transformer模型中自注意力机制的优化算法,旨在提高计算效率并降低内存占用,特别适用于处理长序列任务。在Transformer架构中,自注意力机制的计算复杂度和内存需求随着序列长度的平方增长。这意味着当处理较长序列时,计算和内存负担会显著增加,导致模型训练和推理的效率降低。
2025-03-27 21:48:04
517
原创 NLP高频面试题(十九)——VLLM推理加速原理
随着大语言模型的快速发展,其推理效率逐渐成为应用落地的关键瓶颈。vLLM作为近年来备受关注的LLM推理框架,以其高效的推理性能脱颖而出。本文将深入浅出地介绍vLLM背后的两大核心技术:Continuous Batching 和 PagedAttention。
2025-03-27 21:36:27
576
原创 NLP高频面试题(十八)——什么是prefill和decoder分离架构
Prefill-Decoder 分离架构,简单来说就是将大模型推理流程中**“读取输入”和“生成输出”这两部分拆开**,各自优化、协同工作。对于模型服务厂商而言,这是在后GPT时代追求高效部署的一大创新趋势。从Moonshot Kimi的Mooncake架构可以看到,得益于这一思路,他们在实际业务中取得了显著的性能提升和成本节约。标准化与开源生态:随着Mooncake等项目开源,预填充-解码分离架构有望形成标准化方案。
2025-03-26 23:08:25
1827
原创 NLP高频面试题(十七)——什么是KV Cache
KV Cache,全称为 Key-Value Cache,是在Transformer模型推理过程中,为减少重复计算、降低内存开销而设计的一种缓存机制。Transformer 模型中,每生成一个新词(token)时,都需要计算该词与前面所有词之间的注意力(attention)。注意力计算涉及 Query(Q)、Key(K) 和 Value(V) 三个张量,其中Key 和 Value 对于已生成的 token 是不变的,只有 Query 会随每次生成而更新。
2025-03-26 22:25:34
929
原创 NLP高频面试题(十六)——deepspeed原理
近年来,随着深度学习模型尤其是大型语言模型(LLM)的迅猛发展,训练所需的资源与计算能力不断攀升。单个GPU或节点的资源已很难满足数百亿甚至上万亿参数模型的训练需求,这种情况下,多卡甚至多节点分布式训练技术应运而生。然而,传统的PyTorch自带的分布式训练工具在显存占用、训练效率和可扩展性上存在诸多限制。这正是Deepspeed诞生的重要背景。本文将深入探讨Deepspeed的核心技术,分析其在大型模型训练中的重要作用。
2025-03-25 23:15:34
718
原创 NLP高频面试题(十五)——有哪几种分布式训练方式
随着深度学习模型规模的迅速增长,单个设备往往无法满足训练需求,因此分布式训练技术成为了业界的热点和研究前沿。本文将介绍几种常见的分布式训练方法。
2025-03-25 22:57:38
403
原创 NLP高频面试题(十四)——DPO、PPO等强化学习训练方法介绍
强化学习与监督学习、无监督学习不同,它不依赖大量标注数据,而是通过与环境交互来获得反馈奖励,以此来训练智能体学习最佳决策策略。简单来说,强化学习的本质是智能体通过与环境互动,不断试错,从而优化策略以实现总奖励最大化。无需大量标注数据,但通常需要大量交互数据;处理序列决策问题,当前决策影响后续状态;学习目标是最大化长期累积奖励,而非单步预测精度。PPO(Proximal Policy Optimization)是一种广泛应用的强化学习算法,属于策略梯度(Policy Gradient)方法。
2025-03-24 22:52:32
779
原创 NLP高频面试题(十三)——什么是大模型幻觉,如何解决大模型幻觉
大模型幻觉(Hallucination)是指大型语言模型在生成文本时,虽然看似流畅、合理,但实际内容却可能毫无根据甚至与事实相悖。这种现象俗称为“一本正经的胡说八道”,严重影响了模型生成内容的可信度。比如,在医疗咨询应用中,如果模型产生幻觉并生成错误诊断信息,可能危及患者生命安全。因此,了解并有效应对大模型幻觉变得非常必要。不过值得注意的是,幻觉并非完全有害,在某些需要创造力的情景下,如艺术创作或故事生成,适度的幻觉可能激发创新和想象力。
2025-03-24 22:45:45
790
原创 NLP高频面试题(十二)——Lora微调的原理、什么是Qlora
LoRA(Low-Rank Adaptation)是一种针对大型预训练模型的微调方法,其核心思想是通过低秩矩阵分解的方式高效实现模型参数的微调。传统的微调方法通常需要更新模型所有的参数,而LoRA则通过新增一个并行的低秩结构来间接实现模型参数的更新。QLoRA(Quantized LoRA)是在LoRA基础上提出的一种创新技术,旨在进一步降低模型微调时的内存使用,通过量化预训练模型权重至4-bit,同时结合低秩适配器(LoRA)实现高效的微调。一种针对正态分布数据的最优4-bit量化方法,精度损失极小。
2025-03-23 20:58:54
817
原创 NLP高频面试题(十一)——RLHF的流程有哪些
RLHF 是一种利用人类反馈引导语言模型优化生成结果的方法,它结合了监督学习和强化学习的优点,以提升模型生成结果的质量、连贯性和安全性。
2025-03-23 20:48:49
539
原创 NLP高频面试题(十)——目前常见的几种大模型架构是啥样的
随着Transformer模型的提出与发展,语言大模型迅速崛起,已经成为人工智能领域最为关注的热点之一。本文将为大家详细解析几种目前常见的大模型架构,帮助读者理解其核心差异及适用场景。
2025-03-22 23:58:15
949
原创 NLP高频面试题(九)——大模型常见的几种解码方案
在大模型的推理过程中,解码策略直接影响生成文本的质量和连贯性。本文深入解析了几种常见的解码方案,包括贪心搜索(Greedy Search)、束搜索(Beam Search)以及采样优化方法(Top-k、Top-p、Temperature)。我们不仅介绍了它们的原理,还对比了各自的优缺点,帮助你更好地理解和应用这些解码策略。
2025-03-22 23:37:05
744
原创 NLP高频面试题(八)——GPT三个版本的区别
本博客致力于解析GPT模型的演进历程,详细对比GPT-1、GPT-2和GPT-3的核心区别。从架构优化到注意力机制的革新,我们将深入剖析每一代模型的技术突破,帮助读者理解GPT系列的演化逻辑及其在自然语言处理领域的重大影响。
2025-03-21 14:35:29
487
原创 NLP高频面试题(七)——GPT和Bert的mask有什么区别?
在自然语言处理模型的预训练过程中,mask策略直接影响模型的学习效果。BERT和GPT作为两种典型的预训练模型,它们在mask方法上存在显著差异。本篇博客将深入探讨BERT的token级mask及其局限性,以及GPT所采用的mask策略。
2025-03-21 14:23:43
1113
原创 NLP高频面试题(六)——decoder-only、encoder-only和encoder-decoder的区别与联系
随着人工智能技术的迅猛发展,语言模型已经成为自然语言处理领域的关键技术之一。本文将深入探讨decoder-only、encoder-only 和 encoder-decoder 三种语言模型架构的特点、适用场景及其相互之间的异同。
2025-03-19 22:18:14
455
原创 Atom of Thoughts for Markov LLM Test-Time Scaling论文解读
近年来,大型语言模型在训练规模的扩展上取得了显著的性能提升。然而,随着模型规模和数据量的增长遇到瓶颈,测试时扩展(test-time scaling)成为进一步提升模型能力的新方向。传统的推理方法,如思维链(Chain of Thought, CoT)和思维树(Tree of Thought, ToT),在推理过程中过度依赖完整的历史信息,导致计算资源浪费,并可能干扰有效的推理。
2025-03-19 22:09:12
366
原创 NLP高频面试题(五)——BERT的基本结构介绍、预训练任务、下游任务
BERT(Bidirectional Encoder Representations from Transformers)作为谷歌提出的一种预训练语言模型,在自然语言处理(NLP)领域引发了深刻变革。本文将深入介绍BERT的核心结构,包括其创新性的双向Transformer编码器架构,并详细探讨BERT如何利用Masked Language Model(MLM)和Next Sentence Prediction(NSP)两个预训练任务,实现对语言深层次语义的有效捕捉。
2025-03-18 23:55:50
494
原创 NLP高频面试题(四)——BN和LN的区别与联系,为什么attention要用LN
本文将深入探讨深度学习中两种广泛应用的归一化技术——Batch Normalization(BN)与Layer Normalization(LN)的区别与联系,并着重分析为什么Transformer模型中的Attention机制更加适合使用LN。通过具体的原理对比和适用场景的讨论,帮助深入理解二者在不同模型结构中的选择依据和实际作用。
2025-03-18 23:45:57
835
原创 NLP高频面试题(二)——LSTM、GRU和Transformer结构的区别与联系,优缺点分别是什么?
随着深度学习的迅猛发展,序列模型逐渐成为人工智能领域的重要组成部分,其中LSTM、GRU和Transformer是最具代表性的三种结构。LSTM与GRU作为经典的循环神经网络结构,曾在处理序列数据上风靡一时,而Transformer则以其独特的自注意力机制掀起了新一轮的技术革命。本文将系统地介绍LSTM、GRU与Transformer这三种网络结构,深入分析它们之间的区别与联系,并清晰地归纳各自的优缺点,帮助读者更好地理解与选择适合自身任务的模型结构。
2025-03-17 22:43:11
557
原创 NLP高频面试题(三)——普通RNN的梯度消失和梯度爆炸问题
普通循环神经网络在处理长序列数据时,经常面临梯度消失和梯度爆炸问题。梯度消失是指梯度在反向传播中逐步变小,使模型难以学习远距离的信息;而梯度爆炸则是梯度异常增大,导致训练过程不稳定甚至崩溃。这两个问题严重制约了RNN模型的性能,因此推动了LSTM、GRU以及Transformer等新型神经网络结构的诞生与发展。
2025-03-17 22:38:34
791
原创 NLP高频面试题(一)——Transformer的基本结构、作用和代码实现
本文详细介绍了Transformer模型的基本结构和PyTorch代码实现过程。首先解析了Transformer的核心组成部分,包括嵌入层、多头自注意力机制、位置编码、前馈神经网络、编码器和解码器等模块,并通过清晰的代码示例逐步展示了如何在PyTorch中构建完整的Transformer模型。文末提供了一个可运行的简单示例,帮助读者快速理解并实践Transformer的核心原理与实现方法。
2025-03-14 23:17:28
489
原创 VS Code如何使用服务器的Python开发环境
在当今的开发世界中,远程开发已经变得越来越普遍。特别是对于需要大量计算资源或特定配置的项目,使用服务器的开发环境可以大大提高效率。Visual Studio Code(VS Code)是一个功能强大的代码编辑器,支持远程开发。在本文中,我们将探讨如何在VS Code中设置和使用服务器上的Python开发环境。
2023-11-15 21:45:19
777
原创 Ubuntu中安装R语言环境并在jupyter kernel里面增加R kernel
本篇博客旨在指导读者如何在Ubuntu操作系统中安装R语言环境。Ubuntu,作为一款广受欢迎的Linux发行版,因其稳定性、安全性和易用性而被广泛使用。在Ubuntu中安装R语言,将为用户提供一个强大且灵活的环境,用于进行数据分析和统计计算。
2023-11-13 22:31:35
1552
原创 jupyter lab常用插件集合
本篇博客旨在为读者介绍一系列常用且强大的 Jupyter Lab 插件。无论是初学者还是资深用户,你都会在这些插件中发现可以提升你日常工作效率和体验的宝藏。我们将深入探索每个插件的功能、安装方法和使用技巧,帮助你构建一个更加高效、定制化的 Jupyter Lab 工作环境。
2023-11-13 22:19:33
4221
原创 jupyter lab配置列表清单
Jupyter Notebook和Jupyter Lab提供了广泛的配置选项,允许用户根据自己的需求定制运行环境。这些配置项涉及了从日志设置、安全性选项、内核管理,到内容管理等多个方面,每项配置都有其特定的作用和默认值。这个配置文件是Jupyter环境的核心,正确配置这些选项将帮助你创建一个安全、高效、符合个人需求的Jupyter工作环境。根据你的具体使用场景(如教学、数据分析、机器学习等),可能需要调整不同的配置项以获得最佳体验。
2023-11-12 21:59:41
1031
自然语言处理文本匹配任务baseline
2023-01-15
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人