- 博客(6)
- 收藏
- 关注
原创 大语言模型是直接处理句子的么?需要经过什么处理?
本文系统阐述了大语言模型中的分词机制。词元(Token)是模型处理文本的基本计算单元,分词(Tokenization)是将原始文本切分为词元序列的预处理步骤。文章分析了三种主流分词算法:基于词的分词存在词汇爆炸问题,基于字符的分词破坏语义结构,而当前主流的子词分词(如BPE算法)在语义保留和计算效率间取得平衡。针对中文特性,现代方案将汉字与高频词结合,解决了传统中文分词的局限性。
2025-12-08 20:16:47
745
原创 大语言模型中的编码器和解码器是什么意思?
本文解析了AI系统中的编码器-解码器架构原理及其在大语言模型中的应用。编码器负责将输入信息压缩为语境向量,实现深度理解;解码器则基于该向量逐词生成目标文本。BERT模型专注编码器功能,通过双向掩码语言建模实现文本分析;GPT模型侧重解码器功能,通过单向因果语言建模实现文本生成。
2025-12-08 16:11:52
459
原创 模型的训练是什么意思?它是如何进行的?
模型训练本质上是数学优化问题,而非拟人化的学习过程。其核心在于通过训练数据、损失函数和优化器三大要素,在参数空间中寻找最优解以最小化预测误差。训练流程包括前向传播、计算损失和反向传播三个循环步骤,通过不断调整参数提高模型性能。然而,这一过程存在过度拟合、数据偏见和黑箱性质等局限。理解训练机制有助于更客观地认识模型的运作原理和潜在风险。
2025-12-07 22:25:58
507
原创 大语言模型通识指南 入门篇
《大语言模型通识指南(入门篇)》旨在用最通俗易懂的方式解释大语言模型的基本概念。文章采用零数学原则,避免任何专业公式。专为想快速了解AI技术但害怕复杂理论的读者设计,承诺10分钟即可掌握基础概念,具备日常交流能力。后续内容将以碎片化形式持续更新,每篇控制在10分钟阅读量内,帮助读者轻松跟上AI时代。
2025-12-07 18:20:06
229
原创 大语言模型是什么?
本文系统介绍了大语言模型(LLM)的核心概念、工作原理及应用局限。LLM本质是基于海量文本数据训练的概率生成模型,通过Transformer架构和注意力机制实现上下文理解与文本生成。其核心能力包括上下文感知生成和涌现能力,但也存在幻觉、偏见固化、知识静态性等固有局限。文章强调LLM是语言模式生成系统而非知识推理系统,并探讨了其在学术研究中面临的挑战,如事实准确性、偏见放大等问题。最后提出了关于LLM在人文社科领域应用的批判性思考,包括知识再现的本质、去偏见方法、可解释性要求等关键问题。
2025-12-07 18:06:44
573
原创 大语言模型通识指南-序言
《你好,未来!我们来了》面向非技术背景读者的AI入门指南专栏,旨在用通俗语言揭秘大语言模型(LLM)的核心原理。本专栏将复杂技术转化为生活比喻,解释AI如何工作、为何有时会出错,并探讨其社会影响。适合各领域学生和专业人士阅读,清晰易懂。
2025-12-07 17:50:31
182
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅