
Transformers从零到精通教程
文章平均质量分 72
aJupyter
自然语言处理方向在读硕士生,优快云人工智能领域优质创作者,语雀知识库构建者,欢迎大家交流~
https://github.com/aJupyter
展开
-
从零训练LLM-1.训练BPE
分词器将单词从自然语言通过“词典”映射到0, 1, 36这样的数字,可以理解为数字就代表了单词在“词典”中的页码。可以选择自己构造词表训练一个“词典”或者选择比较出名的开源大模型分词器(直接将 tokenizer 的模型文件复制过来,然后 tokenizer.from_pretrained), 正如同直接用新华/牛津词典的优点是token编码压缩率很好,缺点是页数太多,动辄数十万个词汇短语;原创 2025-04-13 22:21:45 · 625 阅读 · 0 评论 -
DeepSeek-MLA
MLA 因为缓存了压缩的 kv cache,而减小了 kv cache 的显存占用,但是在取出缓存后,k 和 v 不能直接使用,需要经过解压计算才可以,引入了额外的计算,与 kv cache 初衷相悖。RoPE 需要对每一层的 Q 向量和 K 向量进行旋转,而且根据 token 位置的不同,旋转矩阵的参数也是不同的。对于 Q 向量,通过 WQR 为每一个头生成一些原始特征,然后通过 RoPE 增加位置信息,再把生成带有位置信息的特征拼接到每个注意力头的 Q 向量。Wuv 同理,可以和 Wo 融合。原创 2025-04-07 23:56:10 · 893 阅读 · 0 评论 -
Knowledge Distillation——知识蒸馏
知识蒸馏简单讲即使用大规模参数的模型对小规模参数模型进行蒸馏,且不是简单的只使用答案,是需要两个模型的log prob进行交互的,故两个模型的vocab size必须是一样的。参考论文中分类了多个不同的版本,on-policy及off-policy。TRL GKD代码基于trl实现的GKDTrainer,GKDTrainer继承自SFTTrainer,SFTTrainer继承自Trainer。所以下面我们先简单的介绍一下Trainer和SFTTrainer。转载 2025-03-09 00:37:46 · 85 阅读 · 0 评论 -
六、Accelerate + Deepspeed
B站UP:你可是处女座啊https://huggingface.co/docs/accelerate/usage_guides/deepspeed运行https://huggingface.co/docs/accelerate/usage_guides/deepspeed#deepspeed-config-filezero_stage2_config.json运行mixed_precision: bf16 需要注释掉,否则报错运行原创 2024-07-16 19:24:26 · 1184 阅读 · 0 评论 -
三、Distributed DataParallel分布式数据并行原理与应用
B站UP:你可是处女座啊Pytorch 自己实现了(借助采样器就可以实现不同的 GPU 选择不同数据)继续优化:只在一个进程中打印,用 gloabl_rank 指定进程号效果:只打印一次设置的原创 2024-03-05 00:10:03 · 654 阅读 · 0 评论 -
EmoLLM(心理健康大模型)——探索心灵的深海,用智能的语言照亮情感的迷雾。
EmoLLM是一个心理健康大模型,它涵盖了认知、情感、行为、社会环境、生理健康、心理韧性以及预防和干预措施等关键要素,强调了心理健康的多维性质,并提供了评估和诊断工具,以促进个体和社会的整体心理健康,更多详情请查看repo(提供数据构建&预处理(例如OCR工具)、微调(基于xtuner、手写transformers)、部署、评估(客观&专业)等多个文档,手把手带你复现)。原创 2024-03-04 22:01:49 · 898 阅读 · 0 评论 -
EmoLLM-心理健康大模型
心理健康大模型(Mental Health Grand Model)是一个综合性的概念,它旨在全面理解和促进个体、群体乃至整个社会的心理健康状态。该项目使用Git进行版本管理。贡献使开源社区成为一个学习、激励和创造的绝佳场所。你所作的任何贡献都是。@datawhale成员、南开大学在读硕士。该项目签署了MIT 授权许可,详情请参阅。心理健康辅导链路的心理健康大模型,由。指令微调而来,欢迎大家star~⭐⭐。本篇README.md面向开发者。@哈尔滨工业大学(威海)在读本科生。本次微调用到的数据集见。原创 2024-02-03 20:32:07 · 2071 阅读 · 0 评论 -
Transformers实战——预训练模型
需要加 end_token(eos),告诉模型什么时候结束生成。做因果语言模型时,自动左填充,即使增加了。不需要 padding,原创 2023-11-28 21:49:33 · 635 阅读 · 0 评论 -
Transformers实战——文本相似度
【代码】Transformers实战——文本相似度。原创 2023-11-27 15:19:40 · 1400 阅读 · 1 评论 -
Transformers实战——多项选择
【代码】Transformers实战——多项选择。原创 2023-11-19 18:19:17 · 412 阅读 · 0 评论 -
Transformers实战——Datasets板块
【代码】Transformers实战——Datasets板块。原创 2023-11-17 21:49:56 · 1483 阅读 · 3 评论 -
Transformer实战-evaluate is all you need
【代码】Transformer实战-evaluate is all you need。原创 2023-11-17 17:38:25 · 333 阅读 · 0 评论 -
基于Optuna的transformers模型自动调参
【代码】基于Optuna的transformers模型自动调参。原创 2023-11-16 15:35:34 · 978 阅读 · 2 评论 -
Transformers实战——Trainer和文本分类
【代码】Transformers实战——Trainer和文本分类。原创 2023-11-16 15:34:35 · 2054 阅读 · 0 评论 -
NLP实战命名实体识别
【代码】NLP实战命名实体识别。原创 2023-11-12 21:16:04 · 328 阅读 · 0 评论 -
Transformers从零到精通教程——Model
查看参数同pipeline,看config的基类代码,具体方法也是。原创 2023-08-12 19:29:32 · 640 阅读 · 1 评论 -
Transformers从零到精通教程——Tokenizer
处理后位置会变得不一样,因此需要返回offset_mapping,知道被处理后的每个token是对应于原始的哪些字符;:在做序列标注、信息抽取等任务时,我们获取的原始数据标签是严格对应于原始的文本字符,于是在。(7.快速调用方式有现成的)句子(字符串)转换为编码。原创 2023-08-08 20:29:17 · 2280 阅读 · 0 评论 -
Transformers从零到精通教程——Pipeline
【代码】Transformers从零到精通教程——Pipeline。原创 2023-07-29 00:19:21 · 1251 阅读 · 0 评论