大语言模型
文章平均质量分 90
司南评测
公众号:司南评测体系,致力构建透明、准确的大模型开源评测体系
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
两行代码开启大模型评测之旅!OpenCompass 工具版本全面更新,快来试试看
作为 OpenCompass 司南大模型评测体系三大核心模块之一的评测工具链体系 CompassKit 近日迎来,更新内容主要集中在 OpenCompass 大语言模型评测工具,本文介绍了新功能的使用方法。原创 2024-09-03 16:57:16 · 2064 阅读 · 0 评论 -
Compass Arena 上新啦!新增双多模态模型匿名对战
2024 年 5 月,上海人工智能实验室司南 OpenCompass 团队 与魔搭 ModelScope 联合推出了大模型评测平台——Compass Arena(大模型竞技场),为国内的大语言模型领域引入了一种全新的竞技模式。今天,Compass Arena 迎来重磅更新,新增了多模态大模型竞技版块——Compass Multi-Modal Arena。在这个全新的竞技场,用户可以轻松体验和比较多款主流多模态大模型的效果,找到适合自己的。原创 2024-08-09 17:24:03 · 1577 阅读 · 0 评论 -
多模态模型评测神器 | OpenCompass MMBench 了解一下!
MMBench 是 OpenCompass 研究团队自建的视觉语言模型评测数据集,可实现从感知到认知能力逐级细分评估。研究团队从互联网公开信息与权威基准数据集采集约 3000 道单项选择题 ,覆盖目标检测、文字识别、动作识别、图像理解、关系推理等 20 个细粒度评估维度。原创 2024-08-06 14:50:07 · 6909 阅读 · 0 评论 -
性能不行,尺寸来凑?马斯克的 Grok-1 究竟价值几何?
过去一年多以来,人工智能的发展开启了狂暴模式,真可谓。Mistral和Claude连发大招之后,马斯克的xAI也搞出了“大动作”!马斯克曾提出建立“第三方裁判”监督 AI 公司,并推出 xAI 项目为了打造能加速人类科技发展的人工智能,还对 OpenAI 发起起诉,指责其背离了初心,甚至表示如果 OpenAI 改名 ClosedAI 就撤诉。3月11日,马斯克宣称 xAI 将对其开发的 AI 对话机器人 Grok 进行开源!原创 2024-08-06 14:45:07 · 1430 阅读 · 0 评论 -
千呼万唤始出来,Meta凌晨开源Llama3
Meta于北京时间4月19日凌晨开源了Llama-3,距Llama-2开源正好9个月。一起看看这次Meta到底放了什么干货。原创 2024-08-05 11:24:01 · 1036 阅读 · 0 评论 -
深度探索:LLaMa-3网络安全能力全解析
随着人工智能技术的迅速发展,大模型在处理各种复杂任务中展示出了卓越的能力。特别是在网络安全领域,大模型的应用潜力巨大,它们可以帮助自动化处理大量数据、识别潜在威胁和提供安全建议。然而,新型大模型层出不穷,要有效利用这些模型,首先必须验证它们在理解和处理网络安全相关问题上的能力。原创 2024-08-05 11:15:38 · 1742 阅读 · 0 评论 -
实战解读:Llama3 安全性对抗分析
近日,腾讯朱雀实验室、科恩实验室和上海人工智能实验室 司南 OpenCompass 大模型评测团队 针对Llama 3 安全性做了进一步解读。原创 2024-08-02 10:34:47 · 1788 阅读 · 0 评论 -
司南 OpenCompass 5 月榜单揭晓,全新大模型对战榜单首次登场
司南 OpenCompass 团队针对国内外主流大语言模型进行了全面评测,现已公布 2024 年 5 月大语言模型最新评测榜单!与此同时,CompassArena 大模型对战榜单 也于今日首次重磅上线!原创 2024-07-31 14:42:12 · 2239 阅读 · 0 评论 -
GPT-4o的数学又双叕进步了?来MathBench看看新版GPT-4o到底强在哪
数学推理和问题解决是人类智力的重要方面,几十年来也一直是人工智能(AI)领域研究的重点以及大模型的兵家必争之地。机器对数学问题的理解、解释和解决能力不仅是其认知能力的标杆,还在其各个领域的应用中发挥着关键作用。因为模型的数学能力强,往往代表了模型具有更强的推理和知识整合能力,也能更好的完成其他任务。随着现代大型语言模型(LLMs)如OpenAI的ChatGPT和GPT-4的出现,LLMs展示了生成类人对话和解决复杂数学难题的非凡能力。原创 2024-07-31 14:33:34 · 1708 阅读 · 0 评论
分享