- 博客(11)
- 收藏
- 关注
原创 模型的”B”有什么含义?
模型参数规模的意义与应用分层 模型参数规模(如7B、32B、70B)直接决定了语言模型的能力层级和应用场景。参数数量代表模型存储语言规律和世界知识的容量,规模越大,模型处理复杂任务的能力越强。小型模型(0.5B-7B)适合基础问答,中型模型(32B-70B)具备专业领域推理能力,而百亿级超大型模型则展现出跨学科综合分析和创造性思维等涌现能力。 然而,模型并不是越大越好,需要根据场景合理选择。
2025-12-11 11:33:49
674
原创 如何给大模型瘦身?
本文探讨了三种降低大语言模型资源消耗的主流优化方法:量化、剪枝和知识蒸馏。量化通过降低参数精度(如32位转8位)减小模型体积和加速计算;剪枝通过移除冗余参数精简网络结构;知识蒸馏则通过教师-学生模式实现知识迁移。这三种方法各具特点:量化侧重硬件优化但损失精度,剪枝寻找核心网络结构但需谨慎操作,知识蒸馏能培育专业模型但受限于教师质量。它们既可单独使用也可组合应用,共同解决大模型部署中的效率瓶颈问题。
2025-12-11 10:48:16
1161
原创 高效参数微调是(PEFT)是什么?
参数高效微调(PEFT)是一系列降低大模型适配成本的技术,主要包括适配器式(如LORA、QLORA)和提示式(如PromptTuning、PrefixTuning)两类方法。前者通过植入小型可训练模块实现微调,后者则学习最优软提示来引导模型。这些技术仅需调整少量参数,就能让预训练模型适应新任务,显著降低了计算和存储需求。
2025-12-11 10:29:26
773
原创 如何提升大语言模型解决特定问题的能力?
提升大语言模型特定任务能力的五种方法,构成了从"外部引导"到"内部改造"的完整谱系。提示词工程通过优化输入指令激活模型已有能力,零成本但受限于知识边界。上下文工程在有限窗口内优化信息组织,提升输入有效性。检索增强生成(RAG)为模型外挂可更新知识库,缓解幻觉但不改变模型本身。参数高效微调(PEFT)以LoRA为代表,仅训练少量参数实现任务定制。全参数监督微调(SFT)则通过领域数据深度训练彻底重塑模型。这五种方法可根据需求灵活组合使用。
2025-12-09 10:09:31
1030
原创 大语言模型是如何对文本进行编码的?
本文系统梳理了文本编码技术的演进历程,从早期的统计方法(BoW/TF-IDF)到静态词嵌入(Word2Vec/GloVe),再到当前大语言模型采用的动态词嵌入。重点阐释了动态词嵌入如何通过Transformer架构和注意力机制,根据上下文动态生成词向量,有效解决一词多义问题。
2025-12-09 09:07:41
478
原创 大语言模型是直接处理句子的么?需要经过什么处理?
本文系统阐述了大语言模型中的分词机制。词元(Token)是模型处理文本的基本计算单元,分词(Tokenization)是将原始文本切分为词元序列的预处理步骤。文章分析了三种主流分词算法:基于词的分词存在词汇爆炸问题,基于字符的分词破坏语义结构,而当前主流的子词分词(如BPE算法)在语义保留和计算效率间取得平衡。针对中文特性,现代方案将汉字与高频词结合,解决了传统中文分词的局限性。
2025-12-08 20:16:47
1189
原创 大语言模型中的编码器和解码器是什么意思?
本文解析了AI系统中的编码器-解码器架构原理及其在大语言模型中的应用。编码器负责将输入信息压缩为语境向量,实现深度理解;解码器则基于该向量逐词生成目标文本。BERT模型专注编码器功能,通过双向掩码语言建模实现文本分析;GPT模型侧重解码器功能,通过单向因果语言建模实现文本生成。
2025-12-08 16:11:52
968
原创 模型的训练是什么意思?它是如何进行的?
模型训练本质上是数学优化问题,而非拟人化的学习过程。其核心在于通过训练数据、损失函数和优化器三大要素,在参数空间中寻找最优解以最小化预测误差。训练流程包括前向传播、计算损失和反向传播三个循环步骤,通过不断调整参数提高模型性能。然而,这一过程存在过度拟合、数据偏见和黑箱性质等局限。理解训练机制有助于更客观地认识模型的运作原理和潜在风险。
2025-12-07 22:25:58
739
原创 大语言模型通识指南 入门篇
《大语言模型通识指南(入门篇)》旨在用最通俗易懂的方式解释大语言模型的基本概念。文章采用零数学原则,避免任何专业公式。专为想快速了解AI技术但害怕复杂理论的读者设计,承诺10分钟即可掌握基础概念,具备日常交流能力。后续内容将以碎片化形式持续更新,每篇控制在10分钟阅读量内,帮助读者轻松跟上AI时代。
2025-12-07 18:20:06
307
原创 大语言模型是什么?
本文系统介绍了大语言模型(LLM)的核心概念、工作原理及应用局限。LLM本质是基于海量文本数据训练的概率生成模型,通过Transformer架构和注意力机制实现上下文理解与文本生成。其核心能力包括上下文感知生成和涌现能力,但也存在幻觉、偏见固化、知识静态性等固有局限。文章强调LLM是语言模式生成系统而非知识推理系统,并探讨了其在学术研究中面临的挑战,如事实准确性、偏见放大等问题。最后提出了关于LLM在人文社科领域应用的批判性思考,包括知识再现的本质、去偏见方法、可解释性要求等关键问题。
2025-12-07 18:06:44
799
原创 大语言模型通识指南-序言
《你好,未来!我们来了》面向非技术背景读者的AI入门指南专栏,旨在用通俗语言揭秘大语言模型(LLM)的核心原理。本专栏将复杂技术转化为生活比喻,解释AI如何工作、为何有时会出错,并探讨其社会影响。适合各领域学生和专业人士阅读,清晰易懂。
2025-12-07 17:50:31
233
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅