第三季度社区开源大模型回顾

最新推荐文章于 2025-12-03 08:43:36 发布

原创最新推荐文章于 2025-12-03 08:43:36 发布 · 125 阅读

CC 4.0 BY-SA版权

文章标签：

随着人工智能技术的不断发展，我们在2023年第三季度见证了一系列令人激动的开源模型的发布，包括语言模型、多模态模型和精调模型。这些模型在各自的领域都取得了显著的成果，为我们提供了更多的可能性和机会。

介绍： Meta公司推出的LLaMA 2是一款强大的大语言模型，包括基础和对话模型版本，参数为7B、13B、70B。它在多个外部基准测试中优于其他开源语言模型，具有出色的推理、编码、精通性和知识测试能力。LLaMA 2的训练数据比LLama 1多了40%，上下文长度也翻倍，采用了分组查询注意力机制，使其能够更好地处理聊天对话任务。
推荐下载地址：

Baichuan 2

介绍： 百川智能推出的新一代开源大语言模型Baichuan 2，采用2.6万亿Tokens的高质量语料进行训练。它在多个权威的中文、英文和多语言的通用、领域benchmark上取得同尺寸最佳的效果。本次发布包含有7B、13B的Base和Chat版本，并提供了Chat版本的4bits量化。所有版本对学术研究完全开放，同时，开发者可通过邮件申请并获得官方商用许可后，即可免费商用。
推荐下载地址：

介绍： ChatGLM-6B发布了第二代版本ChatGLM2-6B，该模型支持中英对话，不仅保留了初代模型的对话流畅性和低部署门槛等优秀特性，还引入了更强大的性能、更长的上下文、更高效的推理和更开放的协议等新特性。其中，ChatGLM2-6B的上下文长度扩展到了32K，并使用8K的上下文长度进行训练，允许更多轮次的对话。
推荐下载地址：

介绍： VisualGLM-6B是由智谱AI和清华大学共同开源的多模态对话模型，支持图像、中文和英文。它依靠来自于CogView数据集的30M高质量中文图文对，与300M经过筛选的英文图文对进行预训练，中英文权重相同。该训练方式较好地将视觉信息对齐到ChatGLM的语义空间，并在微调后实现了生成人类偏好的答案。
推荐下载地址：