- 博客(18)
- 收藏
- 关注
原创 CVPR 2025:长Prompt对齐问题也能评估了!当前最大AIGC评估数据集,模型评分超越当前SOTA
CVPR 2025:长Prompt对齐问题也能评估了!当前最大AIGC评估数据集,模型评分超越当前SOTA
2025-04-02 10:45:55
391
原创 【AGI-Eval行业动态 NO.6】Manus爆火:一场关于AI未来的“乐观”与“警惕”
Manus爆火:一场关于AI未来的“乐观”与“警惕”
2025-03-31 11:20:11
1014
原创 OpenAI o1不太行?国产模型 PK OpenAI o1,高难度数学和算法竞赛能力究竟谁更胜一筹?
国产模型 PK OpenAI o1,高难度数学和算法竞赛能力究竟谁更胜一筹?
2025-03-27 11:38:17
466
原创 【AGI-Eval评测报告 NO.2】DeepSeek V3-0324抢先评测!最全报告输出
DeepSeekV3最新版本抢先评!在复杂推理任务上,准确率提升由更详细的步骤拆解、更长的推理输出带来,会带来成本上的提升。
2025-03-27 11:34:37
739
原创 【AGI-Eval行业动态 NO.4】Claude 3.7 Sonnet将模型行业卷向了新高度,但背后仍然还有新的问题
基于这样的双思维模式,在实际应用中,用户可以自由选择是让 Claude 3.7 Sonnet 快速作答,还是让其进行更长时间的深度思考。模型从能力到领域都在不断加速发展,针对模型能力的评测变得越来越重要, 现在模型发布时都会对外宣称自己模型是最强模型,Gork 3 发布时,马斯克也说 Gork 3 是最强模型。的模型进行了迭代更新,且每个模型迭代的产品性能都显著的提升,细分方向也愈发明显, 2025 年的大模型“狂卷时代”全面升级, AI 开发技术愈加成熟,产品能力也愈发显著。
2025-02-28 15:13:20
714
原创 【AGI-Eval评测数据 NO.2】CapaBench 揭示 LLM 智能体中各个模块的作用
CapaBench 作为一种新型的评估框架,能够有效地揭示 LLM 代理中各个模块的作用,为开发者提供科学的性能评估依据,也为代理的优化和未来应用的提升提供了有力支持。我们期待它在学术界和工业界的广泛应用,推动 LLM 代理技术迈向新的高度。参考资料:
2025-02-28 15:07:09
719
原创 【AGI-Eval行业动态 NO.1】大模型行业太卷了,两周多了20+的模型
同样从不一样的技术报告中,也发现了一个华点,在大家的技术报告中,都会表现出自己的模型能力在不同的 Benchmark 的排名都接近甚至超越 O1,这个更深层次看到的是各家厂商的能力排名可能还没有统一标准;,DeepSeek-R1 的冷启动数据,包括长 CoT 示例进行的少样本提示数据、直接提示模型生成带反思和验证的详细答案的数据以及经过人工处理后的DeepSeek-R1-Zero可读格式输出的数据等,在。从第三方视角去评判大模型能力,帮助各家模型发现自己的差异,并进行能力补足,大家继续提升继续卷起来。
2025-02-20 14:35:04
677
原创 【AGI-Eval行业动态 NO.2】OpenAI打响今年卷应用第一棒,「Operator」之后还应该探索什么?
同时也在 Level 2 级别的模型评估上,推出了新的尝试,构建了私有的高难度数据集Math Pro Bench【https://agi-eval.cn/evaluation/Math%20Pro%20Bench】& OI Bench 【https://agi-eval.cn/evaluation/OI%20Bench】。在 InfoQ 研究中心发布的报告中,从平台类和垂直类的角度出发,盘点了近 50 个中国市场中的 AI Agent 产品,智能体不少,但现在针对不同交互任务的统一评测榜单还没有一个。
2025-02-20 14:23:23
829
原创 【AGI-Eval行业动态 NO.3】DeepSeek 今天真的搞了一波大的!正在屠榜中!
Rohan Paul 作为一位专注于大型语言模型( LLMs 的研究人工智能领域的专家,也在持续关注其的动态内容,在 DeepSeek 登顶 AppStore 之前,就发布了关于 DeepSeek 的运行指南教程,被查看超过了 78W 次,不得不说, DeepSeek 就是靠这一波又一波的“自来水”霸榜的。最重要的是,在年前 A 股收官的最后一天,直接来了一个开门红,早盘,多支 DeepSeek 概念股“一字”涨停。选择下面古诗,分别以相关的题材和内容写出超越他的古诗,并分别解释超越的原因。
2025-02-20 14:18:26
932
原创 【AGI-Eval学习干货 NO.3】一文教你获取AI行业最新技术进展,教你AI论文查询方法
阅读完全文,可以再次查看论文的思维导图,可以进行全文的关键点复盘,对于不清晰的地方可以再次回查。
2025-02-20 10:54:22
921
原创 【AGI-Eval实用干货 NO.1】19个流畅使用DeepSeek的平台,不用担心服务器繁忙了
回到模型广场,寻找需要自己想要的 DeepSeek 版本, 目前平台上的版本很多,大家完全可以根据自己的需要来部署,同时还有免费的 2000 万 Tokens,能够解决近期的需要,本次部署的是 V3 版本,侧重的是给大家展示部署流程;,除硅基流动之外,还有其他平台可调用 API,因为 DeepSeek 已暂停 API 服务充值,存量充值金额可继续调用,大家可以换着用,以下是可调用DeepSeek 模型的平台。
2025-02-19 18:12:49
628
原创 【AGI-Eval评测报告 NO.1】DeepSeek 三大类型模型全面评测,通用及推理模型实现领跑,多模态位于第三梯队
最近 DeepSeek 的知名度突破圈层,大家都在进行操作尝试,不同媒介和平台都在关注,但是具体 DeepSeek 的模型能力的水位线在何处,与其他头部厂商以及 OpenAI 的能力差异如何,这个信息还没有公开权威的披露,此次 AGI-Eval 评测社区通过自建私有数据集及公开数据集做了多个维度的模型评测分析,输出一版全面、公正、权威 DeepSeek 最新模型的能力评测报告。在竞赛学科方面超越 o3-mini、o1,在高中及大学学科方面与 o3-mini、o1 能力接近。
2025-02-19 17:50:34
830
原创 【AGI-Eval行业干货 NO.2】DeepSeek使用必看指南,隐藏1000个提示词参考(建议收藏)
让DeepSeek帮你生成一个PS的脚本,命令内容按照需求拟定,然后将这段脚本复制,创建文本文档,将格式改为重命名为.jsx后的脚本文件,打开记事本,复制刚才的脚本代码,打开PS,点文件-脚本-浏览,打开刚才的脚本即可运行。好的老板 or 甲方都会抓住更精准的问题,或者给出新的思路,执行的人也能做的更好,偶尔也需要学会 PUA,在问题中加入批判性思考。这样“论文式”的提示词给到语言模型一个范例模板,你事无巨细的想清楚了,模型结果才能长成想要的样子,如果不限制反而结果过于发散,常偏离自己的预期。
2025-02-11 16:21:11
965
原创 【AGI-Eval深度解读 NO.1】5000字,带你了解模型背后的“燃料枯竭”问题,「数据掘金」仍是主流!
添加图片注释,不超过 140 字(可选)Nicola Jones 在 Nature 上抛出问题“人工智能革命的数据即将耗尽。研究人员能做什么?”。由此可见,“数据挖金”这个命题仍是行业主流,同样创建高质量的评测数据也是我们社区一直在深度研究的课题。添加图片注释,不超过 140 字(可选)基于以上内容,此次我们的探讨话题将围绕“数据是否真的面临枯竭”、“高质量数据的选择方法”以及“还有可能的解法是什么”展开,这个命题很大,我们很难得出一个准确和清晰的路径,但也借此抛砖引玉,给大家一些思考方向。添加图片注释,不
2025-02-05 11:31:25
781
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人