[论文笔记] Pai-megatron-patch cpu-offload 改到 Qwen2-优快云博客
大模型长文本性能如何评估:Longbench及Longeval任务设计与评测细节 - 智源社区
一文详看大模型长文本如何评估:四大主流评测数据集的任务设计、数据集构建方案_语言模型_深科文库-GitCode 开源社区
Pai-Megatron-Patch (mcore代码)
长文本限制:
开SP之后,72B能开到16K,7B能开到32K。
但是72B开16K,或者7B开32K时,如果训练时训练样本中有长文本的