司南·Daily Benchmark 专区今日上新!
NL2Repo-Bench
一个专门用于评估代码智能体长时序仓库生成能力的评测基准。
https://hub.opencompass.org.cn/daily-benchmark-detail/2512%2012730
ProImage-Bench
一个专业图像生成评测基准,通过细粒度评分量表评估模型的科学精确性和信息密度,并支持迭代优化。
https://hub.opencompass.org.cn/daily-benchmark-detail/2512%2012220
FIN-bench-v2
一个用于评估芬兰语大语言模型的统一评测基准套件,覆盖了阅读理解、常识推理、情感分析、世界知识和对齐任务中的多项选择与生成式任务。
https://hub.opencompass.org.cn/daily-benchmark-detail/2512%2013330
Market-Bench
一个用于评估大语言模型在入门量化交易任务表现的评测基准,通过要求模型根据自然语言策略描述和市场假设构建可执行回测器来进行测试。
https://hub.opencompass.org.cn/daily-benchmark-detail/2512%2012264
1041

被折叠的 条评论
为什么被折叠?



