前情提要
RAG
感觉这一节都是讲述的一些历史,以及介绍优势
InternLM
有关开源
- InternLM在开源开放方面始终保持前列
- 性能保持前列,在较小的参数达到了较好的效果
- 依托于上海AILab的研究成果
LM2.5
- 推理性能的优化
- 10MB级别的上下文
- 自主规划于搜索完成复杂任务的模型
迭代方式
- 根据数据进行迭代
- 高质量的合成数据
- 基于规则的数据构造
例如: 代码,公式,函数,数学题解 - 基于模型的数据扩充
对模型进行直接的数据扩充 - 基于人类反馈的数据生成
例如更为详细的Prompt数据生成
- 基于规则的数据构造
- 高质量的合成数据
对长上下文问题解决能力的校验
“大海捞针”:对长文本中信息检索是否准确
更长上下文: 10m级别的有效上下文记忆
开源模型规模
一般来讲,将模型依照参数数量分划为四种不同的规模
- 1.8B 超轻量级的端侧应用模型
- 7B 轻量级应用模型的强力支持
- 20B 综合能力较强的模型规模
- 102B 性能强大的闭源模型
开源生态
- 广泛的平台支持,开源模型
- 开源的数据集
- 开源的框架
- 开源的微调对齐算法
- 开源的推理部署框架
- 开源的评价体系
- 开源的工具架构
数据管理
MINORU, LABELLM,OPENCOMPASS
模型架构
INTURNUvil, INTRUNComposer, INTRUNMath
模型微调
Xtuner
应用实践
- RAG
- MINSERARCH: AI驱动的搜索引擎