《玩转AI大模型：从入门到创新实践》（12）LLM初步（4）

最新推荐文章于 2025-12-20 19:32:34 发布

原创

最新推荐文章于 2025-12-20 19:32:34 发布 · 1k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

🌟第12.4节从字符到故事：大语言模型的文字炼金术 🌟

1. 文字编码：给字母穿上数字马甲

(1) 基础编码法

字母 → 数字映射：
```
a=1, b=2, ..., z=26  
空格=0, 标点=27+  
```
→ 示例：
“humpy_dumpt” → [8, 21, 13, 16, 20, 25, 0, 4, 21, 13, 16, 20]

(2) 输入限制

固定窗口长度：
→ 输入层只有12个神经元 → 只能处理12个字符
→ 超出部分截断：“Humpty Dumpt” → 只保留最后12字符

(3) 编码缺陷

语义丢失：
→ “h”=8 和 “i”=9 无内在关联
→ 改进方案：后续引入词向量（Word2Vec）

2. 神经网络架构：文字的流水线工厂

(1) 输入层 → 字符信箱

每个神经元对应一个字符位置
→ 示例：

输入序列："umpty_dumpt"  
神经元分配：  
[u(21), m(13), p(16), t(20), y(25), _(0), d(4), u(21), m(13), p(16), t(20), ?(待预测)]

(2) 隐藏层 → 语义搅拌机

多层级特征提取：
→ 初级层：捕捉字母组合规律（如"th"常连用）
→ 深层：理解短语结构（如"on a wall"的介词搭配）

(3) 输出层 → 概率投票箱

26+神经元设计：
→ 每个神经元代表一个字母的得分
→ 使用Softmax转换成概率：
```
P(y)=e^25/(e^8+e^21+...+e^25) ≈ 98%  
```

在这里插入图片描述

3. 文字生成：AI的接龙游戏

(1) 单步预测示范

输入："humpy_dumpt" → 预测下一个字符是"y"  
输出序列更新为："humpy_dumpty"

(2) 递归生成流程

初始输入：“Humpty D”
预测输出：“u” → 更新为"Humpty Du"
再预测

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

caridle

关注关注

6
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

从入门到精通：AI大模型企业级应用开发实战指南

AI天才研究院

01-13

1518

书生·浦语大模型全链路开源体系（LLM/AGENT/多模态/应用部署）从入门到精通

熊猫小妖的AI世界

04-17

1350

书生浦语LLM大模型教程

参与评论您还未登录，请先登录后发表或查看评论

《玩转AI大模型：从入门到创新实践》（12）LLM初步（2）

caridle的专栏

03-01

764

（1）输入特征解析RGB颜色值（专业术语：特征向量）→ 像给物体拍彩色证件照，如叶子的RGB为(32,107,56)→ 每个颜色通道对应数字：红=32，绿=107，蓝=56体积数据→ 用数字尺测量物体大小，鲜花体积显著大于叶子（59.5ml vs 11.2ml）（2）输出目标设计分类方案选择（专业术语：输出层设计）→ 方案一：单输出节点（正数为叶子，负数为花朵）→ 方案二：双输出节点（比较两个数值大小决定类别）→ 本例采用方案二，输出层结构：[叶子得分, 花朵得分]（3）

一步步教你玩转AI大模型：从新手到专家

2401_85343303的博客

09-21

963

AI大模型，作为当前人工智能领域的热点，凭借其强大的处理复杂数据和任务的能力，受到广泛的关注和应用。无论你是技术小白还是有一定基础的开发者，本教程都将带你从入门到实践，逐步掌握AI大模型的核心技术。

《玩转AI大模型：从入门到创新实践》（12）LLM初步（3）

caridle的专栏

03-01

556

（配图建议：训练损失曲线动态演示图 + GPU集群工作实拍）

0 门槛 3 分钟玩转本地大模型：从入门到搭建专属AI知识库

2301_81888214的博客

02-13

1455

0 门槛 3 分钟玩转本地大模型：从入门到搭建专属AI知识库

《玩转AI大模型：从入门到创新实践》（9）第七章 AI职业地图：从使用者到创造者

caridle的专栏

02-14

1082

— 将解锁“从零搭建技能树的防秃指南”“Kaggle竞赛作弊小抄”，并传授如何用GPT模拟面试官，把Boss直聘玩成《赛博朋克2077》！—— 将曝光“让HR颤抖的简历生成器”“摸鱼检测规避工具”，并分享《赛博佛祖：AI版大悲咒》歌单，助你在爆显存时保持心态平和！（终极警告：学习完本书可能导致认知变异，出现用Prompt点外卖、试图给Siri发工资等症状，请谨慎服用）（温馨提示：下一章可能引发知识焦虑，建议搭配生发液同步学习）熟练使用Python。

全面掌握AI大模型：从理论到实践的完整学习路线，看这篇就够了

2401_85373691的博客

02-22

816

大模型很多技术干货，都可以共享给你们，如果你肯花时间沉下心去学习，它们一定能帮到你！

一文搞懂LLM大模型！LLM从入门到精通万字长文（2024.12月最新）

12-20

672

ASR（Automatic Speech Recognition，自动语音识别）技术在软件自动化命令领域正掀起一场变革。它使得软件系统能够理解人类语言，并依据指令自动执行任务。通过 ASR，用户无需手动输入复杂的命令或进行繁琐的界面操作，只需说出指令，软件就能精准响应。在自动化脚本编写中，ASR 可以实时将语音转化为代码命令。例如，在编写 Python 自动化脚本时，用户说出 “创建一个名为‘data’的列表”，ASR 系统就能将其转化为对应的 Python 代码data = []。

多模态赋能情绪理解：Qwen3-VL+LLaMA-Factory 的人脸情绪识别实战

Lab4AI的博客

12-17

829

本项目依托Lab4AI平台，基于LLaMA-Factory成功对Qwen3-VL进行了完整的微调流程。我们将传统的人脸情绪识别任务与多模态大语言模型（MLLM）相结合，探索了MLLM在视觉情绪理解中的应用。通过微调Qwen3-VL，我们成功将传统的分类任务转化为多模态推理任务，显著提升了模型在复杂场景下的鲁棒性和准确率。这一方案不仅在人脸情绪识别上取得了显著提升，还为其他视觉任务的多模态大模型应用提供了新的思路，具有广泛的应用前景。

全品类电商AI助手诞生，AI试衣+万饰穿戴+图生视频，覆盖全链路

Dreamshop_AI的博客

12-19

906

DreamshopAI升级推出三大核心功能，全面革新电商视觉生产流程：AI试衣功能通过智能识别服装款式和材质，7-15天模特拍摄缩短至几分钟；万饰穿戴功能突破品类限制，精准还原珠宝、箱包等商品的材质细节；图生视频功能将静态图片转化为高质量短视频，大幅降低视频制作门槛。系统基于千万级电商数据训练，能自动适配不同市场需求，并推出AI试衣屏Dreamfit实现线上线下体验闭环。此次升级使AI成为电商运营的核心生产力工具，将传统视觉制作效率提升3倍以上，推动电商行业进入智能化新阶段。

[LLM]AIM: Adaptive Inference of Multi-Modal LLMs via Token Merging and Pruning

天下事有难易乎？为之，则难者亦易矣；不为，则易者亦难矣。人之为学有难易乎？学之，则难者亦易矣；不学，则易者亦难矣。

12-20

375

本文提出AIM框架，一种无需训练的多模态大语言模型(MLLMs)推理加速方法。通过双阶段设计：在LLM前基于相似度合并视觉Token，在LLM内基于注意力重要性剪枝Token，显著降低计算量。实验表明，该方法在视频理解任务中可减少6.8倍FLOPs，在图像任务中保持3.7倍加速的同时维持性能。关键发现包括：75%视觉Token冗余、LLM早期层侧重跨模态融合而后期侧重文本推理、跨帧合并会损害视频理解等。该方法支持动态调整压缩比例，为资源受限环境下的高效多模态推理提供了实用解决方案。

深入NVIDIA Nemotron-3：高效准确的技术、工具与数据深度解析

专注于人工智能领域的小何尚

12-18

887

摘要：NVIDIA Nemotron-3技术解析 NVIDIA Nemotron-3系列模型为构建专业AI智能体提供了突破性解决方案。该系列采用创新的混合Mamba-Transformer MoE架构，结合状态空间模型(Mamba)的长序列处理能力、Transformer的精确推理和MoE的高效计算，支持高达100万token的上下文处理。模型通过NeMo Gym多环境强化学习框架训练，使智能体掌握复杂任务执行能力。技术亮点包括：1)混合架构实现超长上下文推理；2)开源RL训练环境支持智能体开发；3)原生支

《玩转AI大模型：从入门到创新实践》（12）LLM初步（4）

🌟第12.4节 从字符到故事：大语言模型的文字炼金术 🌟

1. 文字编码：给字母穿上数字马甲

2. 神经网络架构：文字的流水线工厂

3. 文字生成：AI的接龙游戏

🌟第12.4节从字符到故事：大语言模型的文字炼金术 🌟