
大模型/增量预训练CPT
文章平均质量分 90
大模型-增量预训练PT
医疗AI强化曾小健
"强化学习曾小健2、强化学习曾小健3、我是机器人曾小健具身"都是该号副号。优快云全站70强博客、总600w+浏览。AI生成式技术,计算机博士;llama3、Baichuan2、Qwen、GLM-4等等项目贡献人(微chat同GitHub:ArtificialZeng)。这个博客的主题主要是强化学习技术、AI生成式技术、大模型多模态技术、机器人具身智能控制技术、机器/深度学习论文或科研前沿、GNN图神经网络、神经网络,包括人工神经网络和生物神经网络,及其大脑演化,智能和认知的产生,通用人工智能;
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
通过缓解稳定性差距实现高效持续预训练 | 大模型的混合对齐训练 | 探索构建特定语言的大模型的设计选择!
论文可以让你更快地了解最新研究进展,掌握最新的技术和理论。这对于自身的科研能力和竞争力非常重要,尤其是在快速发展的学科领域,下面小编带你来看大模型最近的研究成果。原创 2024-07-20 16:10:04 · 1248 阅读 · 0 评论 -
Qwen2-57B-A14B预训练
Qwen2-57B-A14B作为一个强大的MoE模型,在保持较小激活参数规模的同时,实现了优秀的性能表现,为大规模语言模型的应用提供了新的可能性。任务中表现优异,超越了当前主流的MoE开源模型。SwiGLU激活函数。原创 2024-07-15 20:45:39 · 2348 阅读 · 0 评论 -
大模型常用的预训练数据集
此外,该数据集针对不同需求,发布了多个子版本:en(英文数据,806G),en.noclean(未清洗的原始数据,6T),realnewslike(仅包含 Real News 涉及的领域的内容,36G),webtextlike(仅包含来自 Open WebText 中URLs 的内容,17G)和 multilingual (多语言数据,38T)。值得注意的是,该数据集内部充斥着大量的噪声和低质量数据,在使用前必须进行有效的数据清洗,以确保数据质量和准确性,常用的自动清洗工具有 CCNet 等。原创 2024-07-18 15:53:18 · 4596 阅读 · 0 评论 -
CodeFuse-13B: 预训练多语言代码大模型
CodeFuse是蚂蚁集团自研的代码生成模型,能提供智能建议和实时支持,帮助开发者自动生成代码、注释、测试用例等,提高研发效率。CodeFuse项目起于2023年初,目前发布了系列模型15个,数据集4个,以及数个相关工具链。CodeFuse-13B是该项目的早期预训练版本,完成于2023年6月,并于9月开源。论文《CodeFuse-13B: A Pretrained Multi-lingual Code Large Language Model》同期发表,并被收录。原创 2024-06-27 11:47:52 · 1109 阅读 · 0 评论 -
从零预训练LLAMA3的完整指南:一个文件,探索Scaling Law
在这次探索中,我们从零开始预训练了一个语言模型。尽管本文中涉及的知识点还有很多没有详细讲解的地方,但我会在之后推出更多相关的实战文章,以补充这些内容。•DDP训练与FSDP和TP:我们讨论了如何使用DDP进行训练。我简单的调整了DDP的llama训练代码,有一个FSDP实现[1]。FSDP会通过模型分片极大程度地减少每个GPU内存占用。此外,还有TP(Tensor Parallelism)等大规模并发训练结构,这些方法都可以显著提升训练效率和模型规模。•MoE模型和多模态模型。原创 2024-07-18 15:03:58 · 1461 阅读 · 0 评论 -
yuan预训练源码解析pretrain_yuan.py
这些组件都是现代Transformer模型(如GPT系列)训练和推理过程中的关键部分。它们帮助模型正确地处理序列数据,尤其是在处理变长序列或特殊token时。函数(其中"ltor"可能代表"left to right",表示从左到右的处理顺序)。和position ids,这些是transformer模型(如GPT系列)所需的典型输入。这个函数主要用于准备模型训练或推理所需的输入数据。separator"(分隔符)的特殊token的ID。这个函数的目的是生成一个批次的数据。,以满足特定的训练或推理需求。原创 2024-07-18 20:49:17 · 437 阅读 · 0 评论 -
探索混合专家(MoE)模型预训练:开源项目实操
通过对比不同配置下的Dense模型和MoE模型,我们清楚地看到了MoE架构在提升性能和优化计算资源方面的巨大潜力。MoE模型不仅在相同参数量下表现优异,更在激活参数减少的情况下依然保持了高效的训练效果。特别是DeepSeek MoE模型,通过增加专家层数量和引入share expert的创新机制,大幅提升了计算效率和模型效果。DeepSeek MoE在使用更少激活参数的前提下,依然能够达到与大型Dense模型相当的性能,展示了其在处理复杂任务中的独特优势。原创 2024-07-15 20:19:17 · 1099 阅读 · 0 评论 -
重用,不要重新训练:训练语言模型持续预演的秘诀
由于语言模型扩展了参数数量和预训练数据集大小,除了资源最充足的团队之外,预训练的计算成本变得很棘手。这种不断增加的成本使得在完成预训练后能够重用模型变得更加重要;允许模型的能力进一步提高,而无需从头开始训练。在这项工作中,我们详细介绍了一组指南,涵盖如何设计有效的数据分布和学习率计划以进行语言模型的持续预训练。当在训练有素的 15B 参数模型之上的持续预训练运行中应用这些发现时,与预训练集上持续预训练的基线相比,我们的平均模型精度提高了 9%。原创 2024-07-20 11:49:38 · 975 阅读 · 0 评论 -
llama3地位不保?谷歌Gemma2 27B开源,预训练13T tokens!
27B 分数非常接近。对于GPU VRAM 较低的场景来说,27B 可能是 70B 的一个很好的替代品。欢迎多多关注,加入交流群,交个朋友吧,一起学习,一起进步!27b 在聊天机器人领域优于 llama 3 70B。模型是在包含多种来源的文本数据集上进行训练的。全局注意力层的跨度设置为 8192 个标记。27B 模型使用 13T 的tokens。刚刚瞄了一眼,权重真开源了!8T 的tokens进行训练。进行训练,9B 模型使用。,技术报告中写的是:我们。的 27B 分数稍低。是我坚持的最大动力!原创 2024-07-06 15:01:40 · 1127 阅读 · 0 评论 -
【LLM数据篇】预训练数据集+指令生成sft数据集
参考:https://www.zhihu.com/question/306887936汇总:https://blog.youkuaiyun.com/PolarisRisingWar/article/details/122987556。原创 2024-07-18 19:57:06 · 1763 阅读 · 0 评论 -
LLM 预训练加速的新方法:8 种模型增长方案总结
原创 AI闲谈AI闲谈2024年06月29日 20:00北京一、背景LLM 的涌现能力依赖于其模型规模的增长,而 Scaling Law 也在推进 LLM 朝着越来越大的方向发展。然而,LLM 预训练的成本非常高,尤其是其与模型规模、数据量成正比,一个千亿参数量的模型往往需要几千个 GPU训练几个月的时间。加速 LLM 预训练也因此称为一个非常有前景的研究方向。当前常见的优化方案为优化分布式策略,通信,以及训练稳定性等。与此同时,很多时候大家都会训练各种。原创 2024-07-28 18:30:31 · 1429 阅读 · 0 评论 -
LLM/Linly-OpenLLaMA基础模型【深大从头训练LLaMA】__及增量训练中文Falcon基础模型
在第一阶段使用50GB数据进行预训练,其中20G中文通用语料为模型提供中文语言能力和中文知识,10G中英文平行语料用于对齐模型的中英文表示,将英文语言能力迁移到中文上,20G英文语料用于数据回放,缓解模型遗忘。在模型训练阶段使用与Falcon预训练相同的超参数设置:AdamW,ZeRO Optimizer,Batch size 2304,对于增量训练,我们设置更低的学习率2e-5。以LLaMA为底座-基于LLaMA权重和词表,利用中文和中英平行数据增量预训练,将它在英文上语言能力迁移到中文上;原创 2023-07-15 10:00:56 · 609 阅读 · 0 评论 -
大模型多机多卡脚本实例 - 增量预训练 -accelerate和deepspeed命令多机多卡训练有什么不同
总的来说,Accelerate更适合快速上手和一般规模的模型训练,而DeepSpeed则更适合大规模模型和需要高度优化的场景。选择哪个框架取决于具体的项目需求、模型规模和可用的硬件资源。根据具体的硬件资源和模型规模,可以选择合适的优化策略或组合使用。管线并行(Pipeline Parallelism)单GPU或少量GPU上能提供高效的训练吞吐量。CUDA核函数,可以实现更快的推理速度。减少模型状态(参数、梯度、优化器。数据并行进程间分割模型状态。ZeRO和Offload。ZeRO和Offload。原创 2024-07-05 17:14:27 · 2459 阅读 · 0 评论 -
微调实操一: 增量预训练(Pretraining)
微调入门篇:大模型微调的理论学习》我们对大模型微调理论有了基本了解,这篇结合我们现实中常见的场景,进行大模型微调实操部分的了解和学习,之前我有写过类似的文章《实践篇:大模型微调增量预训练实践(二)》利用的MedicalGPT的源码在colab进行操作, 由于MedicalGPT代码比较难以理解,而且模型只能从hugging face上下载,对于一些国内服务器无法访问,我重构了代码,让训练代码更有可读性,并参考LLAMAFactory的项目,增加了modelscope上下载。原创 2024-07-14 22:58:07 · 987 阅读 · 0 评论 -
增量预训练baichuan-13b-chat遇到的那些坑
单机两4090,如图在这里插入图片描述单卡24G,baichuan-13b-chat单卡推理需要至少26G,因此仅用一张卡,我们是无法加载百川13B的模型,所以,无论是推理还是训练,我们都必须并行!卡少是非多训练代码: https://github.com/seanzhang-zhichen/train_baichuan_llm.git。原创 2024-07-06 16:43:56 · 756 阅读 · 0 评论 -
LlaMa-Factory源码解析之预训练LLaMA-Factory/src/llamafactory/train/pt/workflow.py -> run_pt()
python复制):run_pt此函数负责语言模型的预训练流程。它接受配置和参数,用于指定模型、数据、训练和微调的参数。callbacks可选的回调函数列表,可以用于训练过程中的自定义操作(例如,日志记录、保存检查点)。原创 2024-04-17 16:49:13 · 1374 阅读 · 0 评论 -
llama factory 增量预训练代码解析 & .yaml文件传参和sh的不同 examples/train_lora/llama3_lora_pretrain.yaml
通过 YAML 文件传参,配置项得到更清晰的分类和管理,使得整个训练流程的设置更加简洁明了。YAML 文件的层次结构使得配置文件易于阅读和维护,并且便于在不同训练任务之间复用。相比之下,使用.sh脚本传参虽然直观,但在参数较多时容易变得杂乱且难以管理。YAML 文件更适合复杂配置的场景,特别是在需要频繁调整和复用配置的情况下。原创 2024-07-03 16:17:47 · 2908 阅读 · 1 评论