每日 AI 评测速递来啦（12.19）

原创于 2025-12-19 19:23:43 发布 · 60 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #大模型评测 #多模态模型 #司南评测 #大模型

Daily Benchmark 专栏收录该内容

21 篇文章

订阅专栏

司南·Daily Benchmark 专区今日上新！

OMG-Bench

首个面向骨架的在线微手势识别的大规模公开基准。该数据集包含 40 类细粒度手势，共 13,948 个实例，分布在 1,272 个序列中，特点是动作细微、动态快速且连续执行。

https://hub.opencompass.org.cn/daily-benchmark-detail/2512%2016727

DP-Bench

首个用于评估数据产品自动生成任务的大规模基准，提供系统化的方法和参考基线。 https://hub.opencompass.org.cn/daily-benchmark-detail/2512%2015798

TabReX-Bench

一个用于系统评估大语言模型表格生成质量的基准，覆盖六个领域、十二种由规划器驱动的扰动类型，并分为三个难度等级。

https://hub.opencompass.org.cn/daily-benchmark-detail/2512%2015907

PDE-Bench

一个面向智能体工具协作的多类型求解偏微分方程（PDE）基准，并提出多层级指标用于评估工具协调性。

https://hub.opencompass.org.cn/daily-benchmark-detail/2512%2016214

TOP-Bench

一个用于评估单智能体多工具架构下工具编排隐私风险（TOP-R）的基准，包含成对泄露与良性场景，支持安全性与鲁棒性的综合评测。

https://hub.opencompass.org.cn/daily-benchmark-detail/2512%2016310

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

司南评测

关注关注

4
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

【Python】青少年蓝桥杯_每日一题_12.19_输出三位数

梁同学与Android

04-05

339

代码实现： # 方法一：穷举法时间复杂度 O(n的三次方) def enmuerate(): N = int(input()) counter = 0 list1 = list(range(N+1)) for i in list1: if i % 2 != 0: # 枚举个位 tens = list1[:] tens.remove(i) # 排除掉个位的数 for j in t.

AI人工智能领域的AI写作实战案例

AI大模型应用之禅

06-11

438

AI写作作为人工智能领域的重要应用方向，其目的在于利用计算机技术自动生成高质量的文本内容。本文章的范围涵盖了AI写作的基本概念、核心算法、数学模型，通过具体的实战案例展示AI写作在不同场景下的应用，同时探讨其未来发展趋势和面临的挑战。我们将深入剖析AI写作的技术原理和实际操作过程，为读者提供全面且深入的了解。本文首先对AI写作的背景进行介绍，让读者了解其目的、适用人群和文档整体结构。接着阐述AI写作的核心概念和联系，包括相关的技术架构和工作流程。

参与评论您还未登录，请先登录后发表或查看评论

GitHub每日最火火火项目（12.19）

qq_37281548的博客

12-19

386

GitHub每日最火火火项目（12.19）

12.19

最新发布

2401_82632848的博客

12-19

540

在 \( \text{Rt}\triangle ACB \) 中，\( \angle ACB = 90^\circ \)，\( D \) 是 \( BC \) 的中点（直角三角形斜边中点性质：直角三角形斜边的中线等于斜边的一半）。在 \( \text{Rt}\triangle ACB \) 中，\( \angle ACB = 90^\circ \)，\( D \) 是 \( BC \) 的中点（直角三角形斜边中点性质：直角三角形斜边的中线等于斜边的一半）。很抱歉，通过识别工具未能获取到该图像中的景点信息。

《中国人工智能学会通讯》——12.19 数据集成应用

weixin_34381666的博客

09-04

116

12.19 数据集成应用数据集成是指将众多的异构数据源进行有效地清洗、去冗、归并、匹配，且最终将融合后的数据形成统一视图的过程[17] 。时空众包可对时空数据进行有效集成。典型的时空数据集成需求包括地图数据集成、城市兴趣点 (Point of Interest,POI) 标注[18]等。以地图数据集成的为例，传统的地图数据集成主要通过测绘等手段完成，数...

12.19 - 每日一题 - 408

yanlei233的博客

12-19

1434

客户/服务器模式的网络结构特点是把数据库的读写操作放在服务器端进行，而应用计算工作则分布在各个客户端的工作站进行，在数据查询操作中，客户机和服务器端的通信仅是查询请求和查询结果。也就是说，服务器只是将处理后的结果返回给客户，在网络上传输的只有“请求”与“结果”，并不需要传送整个数据库或其他额外的信息，因此可以减少网络的流量，从而提高了整个网络的性能。完全二叉树中，任何一个结点的度，或者为0，或者为1，或者为2，所以C错。结点的度是指，该结点的子树的个数，在二叉树中，不存在度大于2的结点。

12.19 -每日一题 - 408

yanlei233的博客

12-19

1467

每日一句：生活的道路一旦选定，就要勇敢的走到底，绝不回头。数据结构 1 . 一个栈的入栈序列是abcde，则栈的不可能的输出序列是（南京航空航天大学 2011年） A．edcba B．decba C．dceab D．abcde 答案：C 解析：堆栈讲究先进后出，后进先出。选项A，abcde先入栈，然后依次出栈，正好是edcba；选项B是abcd先依次入栈，然后d出栈，e再入栈，e出栈；选项C是错误的；选项D是a入栈，然后a出栈；b再入栈，b出栈……依此类推。计算机网络 2.数据链路

每日一题-12.19-分支语句

mu_guang_的博客

12-19

480

4. verilog中case,casex,casez的区别？答：casez和casex是case语句的拓展。在casez语句中，如果分支表达式的某些位的值为高阻z,那么对这些位的比较就会忽略，而只关注其它位的比较；在casex语句中，如果比较双方有一方的某些位的值是z或x,那么这些位的比较就不予考虑；综合时case语句会将所有包含zx?的分支直接优化掉，而casez和casex的综合后电路是...

YQHP每日站立会议 12.19

weixin_30315723的博客

12-19

一，换人后成员组成组长：王力销组员：孙晟博黄金泽乔鑫森罗帅二，黄金点程序的进展：仍然没有完成可视化图形界面。　　项目四则运算：基本完成，还有待继续优化。目前两个项目的基本程序已经完成。期间在将数据通过java程序写入数据库中这一问题上遇到了些　　困难，最后通过组内讨论解决了这一问题。　　我们通过初期对程序系统的分析以及代码的设计，现在已经完成编译，程序运行正常，目前正...

精选资源

node-v12.19.0-x64.msi

09-06

《Node.js v12.19.0 x64安装包详解》 Node.js，一个由JavaScript编写的开源、跨平台的服务器端运行环境，它让开发者能够在服务器端执行JavaScript代码，极大地拓宽了JavaScript的应用领域。本文将详细介绍Node.js v...

精选资源

node-v12.19.0.tar.gz

04-09

Node.js，简称Node，是一个开源且跨平台的JavaScript运行时环境，它允许在浏览器外运行JavaScript代码。Node.js于2009年由Ryan Dahl创立，旨在创建高性能的Web服务器和网络应用程序。它基于Google Chrome的V8 ...

精选资源

postgres-12.19官方离线镜像安装包

07-10

postgres-12.19官方离线镜像安装包

最新版windows node-v12.19.0-x64.msi

10-09

最新版windows node-v12.19.0-x64.msi

node-v12.19.0-x64.zip

10-27

标题中的"node-v12.19.0-x64.zip"指的是Node.js的一个特定版本，12.19.0，针对64位操作系统（x64）的压缩包文件。Node.js是一款开放源代码、跨平台的JavaScript运行环境，它允许开发者在服务器端执行JavaScript代码...

大模型学习基础（五）强化学习（Reinforcement Learning，RL）初步

qq_56095294的博客

12-13

410

前面的文章简单介绍过，传统的监督学习所使用的数据集是（特征，标签），有“标签”即明确的知晓正确的输出应该是什么。而实际的情况是，环境的状态S是由多个Si构成的，每训练一组S-a即训练一个多分类问题，把这些问题的损失函数（交叉熵）加在一起，即可训练出在不同的状态下应该使用什么动作。模型在选择一个动作之后，这个动作实际是对Environment发生，相应的Environment会给模型一个回馈Reward，然后再给模型一个新的Observation，模型继续选择新的动作，循环此过程。

以太联的自愈功能与看门狗机制解析

suzhou_speeder的博客

12-15

1163

看门狗(Watchdog)是一种硬件或软件实现的定时器机制，其核心功能是监控系统或程序的运行状态，防止程序跑飞或陷入死循环。案例：车载以太网交换机通过硬件看门狗实时监测链路状态，若检测到链路中断(如3ms内未收到心跳包)，立即启用备用路径，确保刹车、转向等关键系统永不掉线。案例：某智能工厂的PLC(可编程逻辑控制器)采用软件看门狗，若主程序因干扰死机，看门狗机制自动重启PLC，恢复生产流程。三者协同工作，实现“设备-交换机-网络”三级自愈，显著提升网络可靠性、降低运维成本，并为企业数字化转型提供坚实基础。

数据分析Agent白皮书：揭秘Data x AI的底层逻辑与未来关键

LyAGent的博客

12-18

609

《2025数据分析Agent白皮书》指出，数据分析Agent正成为AI落地的核心形态，实现从"人人分析"到"人人消费"的转变。白皮书系统解析了其技术架构（包括Query/Document/DeepAnalyze三大Agent能力）、行业实践（能源/制造/零售等领域）及落地路径，强调需突破数据准度、分析深度与消费广度三大挑战。未来，数据分析Agent将深度融入业务流程，推动"洞察即行动"的自动化决策模式。该技术有望彻底改变企业数据消费方式，使数据智能

多模态赋能情绪理解：Qwen3-VL+LLaMA-Factory 的人脸情绪识别实战

Lab4AI的博客

12-17

570

本项目依托Lab4AI平台，基于LLaMA-Factory成功对Qwen3-VL进行了完整的微调流程。我们将传统的人脸情绪识别任务与多模态大语言模型（MLLM）相结合，探索了MLLM在视觉情绪理解中的应用。通过微调Qwen3-VL，我们成功将传统的分类任务转化为多模态推理任务，显著提升了模型在复杂场景下的鲁棒性和准确率。这一方案不仅在人脸情绪识别上取得了显著提升，还为其他视觉任务的多模态大模型应用提供了新的思路，具有广泛的应用前景。

Transformer架构的原理是什么？

SACKings的博客

12-15

727

对于“Thinking”这个词，它的输出向量可能包含了90%它自己的信息和10%“Machines”的信息。而对于“Machines”，它的输出可能包含了70%它自己的信息和30%“Thinking”的信息。Transformer 架构的原理是理解现代大模型（如 GPT、BERT、T5 等）的基石。正是因为这些原理上的优势，Transformer才取代了RNN和CNN，成为了当今AI大模型时代的统治性架构。的（打乱输入顺序，输出可能不变），它没有内置的位置概念。Q·K 然后Softmax。