自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 大语言模型是直接处理句子的么?需要经过什么处理?

本文系统阐述了大语言模型中的分词机制。词元(Token)是模型处理文本的基本计算单元,分词(Tokenization)是将原始文本切分为词元序列的预处理步骤。文章分析了三种主流分词算法:基于词的分词存在词汇爆炸问题,基于字符的分词破坏语义结构,而当前主流的子词分词(如BPE算法)在语义保留和计算效率间取得平衡。针对中文特性,现代方案将汉字与高频词结合,解决了传统中文分词的局限性。

2025-12-08 20:16:47 745

原创 大语言模型中的编码器和解码器是什么意思?

本文解析了AI系统中的编码器-解码器架构原理及其在大语言模型中的应用。编码器负责将输入信息压缩为语境向量,实现深度理解;解码器则基于该向量逐词生成目标文本。BERT模型专注编码器功能,通过双向掩码语言建模实现文本分析;GPT模型侧重解码器功能,通过单向因果语言建模实现文本生成。

2025-12-08 16:11:52 459

原创 模型的训练是什么意思?它是如何进行的?

模型训练本质上是数学优化问题,而非拟人化的学习过程。其核心在于通过训练数据、损失函数和优化器三大要素,在参数空间中寻找最优解以最小化预测误差。训练流程包括前向传播、计算损失和反向传播三个循环步骤,通过不断调整参数提高模型性能。然而,这一过程存在过度拟合、数据偏见和黑箱性质等局限。理解训练机制有助于更客观地认识模型的运作原理和潜在风险。

2025-12-07 22:25:58 507

原创 大语言模型通识指南 入门篇

《大语言模型通识指南(入门篇)》旨在用最通俗易懂的方式解释大语言模型的基本概念。文章采用零数学原则,避免任何专业公式。专为想快速了解AI技术但害怕复杂理论的读者设计,承诺10分钟即可掌握基础概念,具备日常交流能力。后续内容将以碎片化形式持续更新,每篇控制在10分钟阅读量内,帮助读者轻松跟上AI时代。

2025-12-07 18:20:06 229

原创 大语言模型是什么?

本文系统介绍了大语言模型(LLM)的核心概念、工作原理及应用局限。LLM本质是基于海量文本数据训练的概率生成模型,通过Transformer架构和注意力机制实现上下文理解与文本生成。其核心能力包括上下文感知生成和涌现能力,但也存在幻觉、偏见固化、知识静态性等固有局限。文章强调LLM是语言模式生成系统而非知识推理系统,并探讨了其在学术研究中面临的挑战,如事实准确性、偏见放大等问题。最后提出了关于LLM在人文社科领域应用的批判性思考,包括知识再现的本质、去偏见方法、可解释性要求等关键问题。

2025-12-07 18:06:44 573

原创 大语言模型通识指南-序言

《你好,未来!我们来了》面向非技术背景读者的AI入门指南专栏,旨在用通俗语言揭秘大语言模型(LLM)的核心原理。本专栏将复杂技术转化为生活比喻,解释AI如何工作、为何有时会出错,并探讨其社会影响。适合各领域学生和专业人士阅读,清晰易懂。

2025-12-07 17:50:31 182

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除