LLM拆分
文章平均质量分 93
zzfive
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
文本编码--BPE
将输入文本拆分为单个字节重复查找并合并、替换字节对,继续合并关系重复步骤2,直到无法构建更多的合并最终构建有效词表,基于其可进行编解码self.bpe_merges = {} # 字典,key是元组,即合并的两个tokend_id,value是合并后的一个token_id"""Args:"""for i, char in enumerate(text): # 将文本中的空格替换为Ġ= 0:if char!原创 2025-09-27 22:21:46 · 793 阅读 · 0 评论 -
RoPE简单解析
本文聚焦于RoPE(旋转位置编码)的实现原理与应用方式。文章首先通过二维复数旋转的数学推导,展示RoPE如何将位置信息融入词向量:通过旋转矩阵作用使点积计算仅与相对位置相关。针对高维向量实现,文中详细拆解了处理步骤:将d维向量视为d/2个复数对,每对采用不同旋转角度计算;同时给出基础旋转角公式θ_i=10000^(-2i/d)。在实现层面,文章介绍了维度变换与旋转矩阵乘法的具体操作流程,并提供了朴素实现代码示例,包括旋转矩阵生成和嵌入应用函数。这种实现方式能够有效在自注意力机制中引入相对位置信息,适用于各类原创 2025-07-29 21:23:51 · 964 阅读 · 0 评论 -
大模型聊天模板
摘要: 聊天模板是用于结构化组织大模型对话数据的格式化规则,将用户、助手等角色信息通过特定标记(如特殊字符或Jinja模板)转换为模型训练时的统一输入格式。不同模型(如Alpaca、ChatML)的模板差异显著,例如使用[USER]或<|im_start|>等标记区分角色。模板不统一的原因包括研发团队的独立性、模型功能扩展(如多模态支持)的灵活性需求,以及避免硬性标准对创新的限制。尽管Hugging Face的transformers库已集成模板功能,但未正确匹配模板可能导致性能下降的静默错误。原创 2025-07-13 10:34:53 · 871 阅读 · 0 评论
分享