1 读书笔记
大模型已经成为发展AGI的重要途径,传统的专用模型是针对特定任务,一个模型解决一个问题,比如ImageNet竞赛中涌现的分类模型,AlphaFold等等。
而通用模型旨在利用一个模型完成All任务,对应多种模态。比如GPT4通过Prompt实现。
书生浦语大模型开源历程:从2023年6月7日的InternLM,到2024年1月17日的InternLM2开源,实际上2024 年7月3日,已经发布了InternLM2.5,有3大亮点:
- 推理能力大幅提升,领先于国内外同量级开源模型,在部分维度上甚至超越十倍量级的 Llama3-70B;
- 支持 1M tokens 上下文,能够处理百万字长文;
- 具有强大的自主规划和工具调用能力,比如可以针对复杂问题,搜索上百个网页并进行整合分析。
InternLM2的体系:面向不同的使用需求,采用不同的规格,每个规格包括了3个模型版本。
从7B-20B,包括了Base、LM2和Chat版本。Base属于高质量、可塑性强的基准模型,适合在深度领域适配;LM2在多个能力方向强化,保持了很好的通用语言能力,更加推荐使用;Chat经过SFT、RLHF,面相对话交互进行了优化,具有很强的指令遵循、共情聊天和调用工具的能力。
回归语言建模的本质:采用新一代数据清洗过滤技术,包括多维度数据价值评估、高质量语料驱动的数据集和有针对的数据补齐。
主要亮点:
- 20W Token超长上下文
- 推理、数学和代码能力比肩GPT
- 精准指令遵循
- 可靠支持工具、复杂智能体搭建
- 强大的内生计算能力,加入了代码解释
538

被折叠的 条评论
为什么被折叠?



