自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 大模型是如何知道何时停止生成的?

EOS 是 “End of Sequence”(序列结束)的缩写。就像我们写文章会用句号来结束句子,大模型使用一个特殊的标记——EOS Token 来表示"我说完了"。</s>或<|end|>ChatGLM:对应的数字 ID 是 2大模型知道何时停止,主要依靠的是 EOS Token 这个"句号"。通过在训练时学习什么时候应该结束,模型能够在生成时做出合理的停止决策。而最大长度限制则作为一个保险机制,确保模型不会无限制地输出下去。

2025-08-01 11:41:04 1490

原创 为什么让大模型“多想想”就能更准?Token预测背后的算力真相 (从「单次预测」到「链式调用」—— 解码思维链提升准确性的物理本质)

生成每个Token需完整执行前向传播:受限于GPU的SM单元/内存带宽:就像人类无法1秒心算362880÷56💡→ 算力严重不足→ 实现算力叠加心算。

2025-07-28 14:07:56 330 1

原创 为什么AI模型吞Token而不是生啃比特?解码Tokenization背后的工程智慧

摘要:AI模型处理文本时采用Token而非原始比特流,这源于计算效率与语义理解的深度权衡。Token化通过子词分割将文本序列缩短数十倍,大幅降低Transformer的O(n²)计算负担(如6-8个Token替代60-100字节)。同时,BPE等算法构建的词汇表既保持语义粒度(如"un-friendly"分解为否定前缀与词根),又避免字节流的无意义编码。虽然牺牲统一编码优势,但在当前硬件限制下,Token化通过注入语言先验知识,让模型专注高级语义而非底层解码,成为大语言模型的高效解决方案

2025-07-24 15:04:55 750 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除