初夏专场：绽放之花书生浦语OpenCompass评测大模型、自定义数据集齐芳争艳

nlpx2000

已于 2024-06-16 00:27:46 修改

阅读量870

点赞数 20

文章标签：人工智能 AIGC 自然语言处理深度学习神经网络语言模型

于 2024-06-16 00:10:22 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/nlpx2000/article/details/139710573

版权

第一部分：OpenCompass基本知识

1.介绍

上海人工智能实验室科学家团队正式发布了大模型开源开放评测体系 “司南” (OpenCompass2.0)，用于为大语言模型、多模态模型等提供一站式评测服务。开源可复现、全面的能力维度、丰富的模型支持、分布式高效评测、多样化评测范式、灵活化拓展。

2.评测研究

研究评测对全面了解大型语言模型的优势和限制至关重要，有助于指导和改进人类与大型语言模型之间的协同交互，研究评测可以帮助更好地规划大型语言模型未来的发展，并预防未知和潜在的风险，了解不同语言模型之间的性能、舒适性和安全性，能够帮助人们更好地选择适合的模型。

3.评测对象

基座模型、对话模型。

4.评测方法

客观评测、主观评测。

5.工具架构

第二部分：评测实战学习

通过当前大模型的能力评测背景、状况，评测的全面性，评测成本，数据方面的污染情况，鲁棒性入手了解OpenCompass司南评测体系开源历程，在评测大模型方面的优势与方法，评测全栈工具链在评测配置 -> 推理 -> 评估 -> 可视化阶段的理论、技术与实践。后面根据本部分实践学习OpenCompass2.0评测体系在大模型评测过程中使用的工具、方法、评测数据集等实操，加强掌握对模型能力进行综合评价的认识以及OpenCompass的作用。实战环境为：Cuda11.7-conda镜像，GPU 为10% A100，评测对象为internlm2-chat-1_8b模型。

视频学习请戳：OpenCompass 大模型评测实战_哔哩哔哩_bilibili由 OpenCompass 贡献者曹茂松、刘卓鑫带来【OpenCompass 大模型评测实战】课程内容的讲解~课程文档：https://github.com/InternLM/Tutorial/blob/camp2/opencompass/readme.md课程作业：https://github.com/InternLM/Tutorial/blob/camp2/opencompass/homewo, 视频播放量 3200、弹幕量 1、点赞数 52、投硬币枚数 29、收藏人数 65、转发人数 17, 视频作者 OpenMMLab, 作者简介构建国际领先的计算机视觉开源算法平台 | 小助手：OpenMMLabwx 微信公众号同名，相关视频：OpenCompass 大模型评测，XTuner 大模型单卡低成本微调实战，5 MMDetection 代码教学，茴香豆：搭建你的 RAG 智能助理，大模型微调数据构造（补充课程）&#

最低0.47元/天解锁文章

博客等级

码龄15年

16
原创

324
点赞

312
收藏

217
粉丝

关注

私信

热门文章

最新评论

大模型OpenCompass评测实战
优快云-Ada助手: 恭喜您发布第7篇博客《大模型OpenCompass评测实战》，内容丰富，观点独到。希望您能继续保持创作的热情和坚持，不断提升自己的写作水平。在下一步的创作中，可以尝试探讨更多关于大模型OpenCompass的应用场景或者与其他技术的结合，让读者能够更深入地了解这个领域。期待您的更多精彩文章！
玩转InternLM2-Chat-1.8B 模型进行智能对话
优快云-Ada助手: 恭喜你成功发布了第一篇博客！标题“玩转InternLM2-Chat-1.8B 模型进行智能对话”听起来非常吸引人，看来你对智能对话领域有着浓厚的兴趣和深厚的研究。接下来，建议你可以深入探讨该模型的应用场景、性能优化以及与其他模型的比较分析，让读者更全面地了解这一主题。期待你的下一篇博客，继续分享你的见解和经验！加油！推荐【每天值得看】：https://bbs.youkuaiyun.com/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
书生·浦语大模型全链路开源体系
优快云-Ada助手: 非常棒的博文！看到你对书生·浦语大模型全链路开源体系的深入探讨，让我感到非常激动。除了数据、预训练、微调、部署、评测和应用这些方面，或许你也可以考虑深入研究一下模型的可解释性和可控性，这对于提升模型的可靠性和实用性也是非常重要的一环。期待看到你未来更多的博文，继续努力创作吧！如何写出更高质量的博客，请看该博主的分享：https://blog.youkuaiyun.com/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。