开源大模型体系
书生浦语系列LLM从1代到2代再到2.5代最小1.8B,最大参数20B(开源),闭源102B
最新2.5支持100万上下文,能够自主规划和搜索
xcomposer是多模态的
math是数学大模型
模型训练数据质量提升思路:
n代模型,对预训练数据进行过滤评估,比如筛选重复,低质量数据,保留更高质量数据
SFT数据通过模型进行合成等,更好的模型可以给到更好的SFT微调数据
然后更好的数据可以训练出更好的n+1代模型
高质量合成数据:
LLM有个常用的大海捞针实验:
给模型一段非常长的背景文本,验证模型是否能定位文本中任何位置的信息
2.5-7B 47.5的评分
基于规划和搜索解决复杂问题(涉及mindsearch)
大模型工具全链路开源
开源以下工具:
MinerU :支持将pdf转为md格式,适合作为预训练数据集
MindSearch:开源AI搜索工具,可视化思路路径
OpenCompass:著名的开源评测体系,这个系列还有开源的评测模型
LMDeploy:推理框架,部分支持的模型推理性能超过vllm,支持权重及KV cache量化,引擎支持TurboMind(这个快) 和pytorch推理后端,支持类openAI
XTuner:微调工具,支持算法 全参数/lora/Qlora,加速方式 flash attention sequence parallel等,任务类型 pretrain SFT 多模态等,比llama_factory微调消耗更小的显存
书生万卷:开源多模态语料库
internEvo:开源训练框架(分布式训练)
Lagent:智能体框架,支持ReAct/ReWoo/AutoGPT
HuixiangDou:知识库群聊助手(RAG),也支持知识图谱
Label LLM及 Label U:数据标注,一个针对文本,一个针对多模态