每日 AI 评测速递来啦（12.25）

最新推荐文章于 2025-12-25 19:33:33 发布

原创最新推荐文章于 2025-12-25 19:33:33 发布 · 82 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #大模型评测 #多模态模型 #司南评测 #大模型

Daily Benchmark 专栏收录该内容

26 篇文章

订阅专栏

司南·Daily Benchmark 专区今日上新！

FEM-Bench

一个基于计算力学的评测基准，用于系统评估大语言模型生成有限元方法及相关科学代码的能力。

https://hub.opencompass.org.cn/daily-benchmark-detail/2512%2020732

ClarifyMT-Bench

一个面向多轮澄清的评测基准，通过多维模糊类型和多样化用户模拟，系统评估大语言模型在真实交互中何时提问、何时回答及处理模糊信息的能力。

https://hub.opencompass.org.cn/daily-benchmark-detail/2512%2021120

VisRes Bench

一个用于自然场景下视觉推理能力评测的基准，通过三个复杂度层级系统评估视觉-语言模型在感知补全、规则推理和组合推理上的表现。

https://hub.opencompass.org.cn/daily-benchmark-detail/2512%2021194

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

司南评测

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

每日一看大模型新闻（2023.12.23-12.25上）李飞飞DeepMind全新「代码链」碾压CoT；2023计算机科学7项重大突破！大模型密集涌现上榜；ChatGPT领衔全球最受欢迎的AI工具

liuxiuxiu3的博客

02-10

849

此外，OpenAI还在考虑更长远的问题，如用于通用型人工智能的算力，并已与阿联酋王室成员控制的G42就为一家新芯片合资公司筹集资金进行了讨论。：这一年，ChatGPT 引爆的「百模大战」在国内外科技领域打响，没有一家公司敢在这样一个充满变革机遇的时间窗口松懈。：2023年，计算机科学领域大事件人人都能脱口而出，火遍全网的ChatGPT一系列大模型、AI作画神器Midjourney，AI视频生成Gen-2、Pika飞速迭代。有凝聚力的团队、冷静与紧迫感的恰当结合，以及对目标的超预期承诺，是完成任务的关键。

精选资源

清华版labview教程12.25

03-19

总的来说，LabVIEW教程12.25涵盖了虚拟仪器的基本概念、LabVIEW的编程基础和技巧、数据采集与处理、信号分析、测量技术以及LabVIEW在各种测量与控制领域中的应用，是学习和掌握虚拟仪器技术与LabVIEW编程的重要资料...

参与评论您还未登录，请先登录后发表或查看评论

精选资源

Polygon Cruncher v12.25 – Maya3DsMax模型优化插件.7z

06-21

Polygon Cruncher v12.25 是一款专为Maya和3Ds Max设计的模型优化插件，旨在帮助用户高效地处理3D模型，降低多边形数量，从而提高渲染速度和性能。这款插件的独特之处在于它能够在减面的同时保持模型的视觉质量，...

清华版labview教程12.25.zip

03-23

本“清华版labview教程12.25.zip”压缩包提供了丰富的学习资源，涵盖了LabVIEW的基础到进阶知识，包括课后习题和答案，适合初学者和有一定经验的用户进行自我提升。 1. **第一章 LabVIEW入门** 这部分可能介绍了...

2025年12.25第一版

12-25

2025年12.25第一版

幽冥大陆(五十四)ASR C语言识别到自动化软件——东方仙盟筑基期

cybersnow精通 28 门计算机语言，凭借其超凡的技术能力，成功开发过上万个应用，广泛涉及政府、商业、个人等众多领域，甚至在检察院、环保局、公安局等专业场景中也大放异彩。不仅熟练掌握单片机和物联网开发，在软件架构设计方面更是独树一帜，自创了跨平台软件

12-20

1412

ASR（Automatic Speech Recognition，自动语音识别）技术在软件自动化命令领域正掀起一场变革。它使得软件系统能够理解人类语言，并依据指令自动执行任务。通过 ASR，用户无需手动输入复杂的命令或进行繁琐的界面操作，只需说出指令，软件就能精准响应。在自动化脚本编写中，ASR 可以实时将语音转化为代码命令。例如，在编写 Python 自动化脚本时，用户说出 “创建一个名为‘data’的列表”，ASR 系统就能将其转化为对应的 Python 代码data = []。

【AI学习-comfyUI学习-第二十三-法线贴图工作流-depth 结构+MiDaS 法线-各个部分学习】

qq_22146161的博客

12-25

679

最近，学习comfyUI，这也是AI的一部分，想将相关学习到的东西尽可能记录下来。不断学习摸索中。

做了一块可以调用百度云语音识别api和tts api的esp32 s3开发板，支持跑ai小智机器人的源码，基于idf5.5.1库编译，分享下

net3m33的专栏

12-25

226

做了一块可以调用百度云语音识别api和语音合成tts接口的esp32 s3开发板，支持跑ai小智机器人的源码，基于idf5.5.1库编译，分享

Q-learning 算法 —— 无模型（model-free）强化学习

一杯水果茶！足矣~

12-25

806

从已知模型到 Model-free 的强化学习转变：Q-Learning 算法，通过详细示例来讲解，理解 Q-table 的更新和贪婪策略

2025国自然资助率12.29%创新低！2026年如何用数据与AI“破局”？

最新发布

imbackneverdie的博客

12-25

637

这绝非简单的文字堆砌，它内在嵌入了对国自然申报规范的理解，能有效帮你规避常见的“方向偏离”“逻辑混乱”“格式错误”等基础问题，将你从繁琐的框架搭建中解放出来，专注于核心内容的精雕细琢。国自然2025年的资助率降至历史新低的12.29%，数万科研人员面对着更激烈的竞争与更严格的评审标准，对于2026年度的申报者而言，“高效准备，少走弯路”已不是口号，而是生存法则。它不仅告诉你“是什么”，更分析“为什么”和“怎么办”，直接为你的选题方向和立项论证提供坚实的数据支撑。模块，堪称科研人员的“选题外脑”。

[LLM]AIM: Adaptive Inference of Multi-Modal LLMs via Token Merging and Pruning

天下事有难易乎？为之，则难者亦易矣；不为，则易者亦难矣。人之为学有难易乎？学之，则难者亦易矣；不学，则易者亦难矣。

12-20

785

本文提出AIM框架，一种无需训练的多模态大语言模型(MLLMs)推理加速方法。通过双阶段设计：在LLM前基于相似度合并视觉Token，在LLM内基于注意力重要性剪枝Token，显著降低计算量。实验表明，该方法在视频理解任务中可减少6.8倍FLOPs，在图像任务中保持3.7倍加速的同时维持性能。关键发现包括：75%视觉Token冗余、LLM早期层侧重跨模态融合而后期侧重文本推理、跨帧合并会损害视频理解等。该方法支持动态调整压缩比例，为资源受限环境下的高效多模态推理提供了实用解决方案。

企业级 RAG 问答系统开发上线流程分析

hello！

12-22

1354

这个项目流程是一个非常典型的。

Yolov10n-ReCalibrationFPN-P3456在茶树褐斑病检测中的应用与实践

Dekesas9695的博客

12-21

1382

本文提出了一种基于Yolov10n-ReCalibrationFPN-P3456的茶树褐斑病检测方法。通过引入ReCalibration模块增强特征表达能力，改进FPN结构优化多尺度特征融合，并设计P3456特征金字塔提升小目标检测能力。在自建数据集上的实验表明，该方法实现了92.6%的mAP和259FPS的推理速度，显著优于YOLOv5n/YOLOv8n等主流模型。该轻量化模型适合边缘设备部署，为茶树病害智能检测提供了高效解决方案。

界面重构与本地化实践：凤希AI伴侣的自动化演进思考凤希AI伴侣2025年12月21日

12-21

867

昨日工作总结：完成凤希AI伴侣三项核心开发：1）重构模型选择界面，实现弹窗式分类展示；2）成功测试本地大模型的OCR功能；3）优化配置数据存储方案，采用本地存储+版本管理提升效率。同时深入探讨了AI工具自动化的本质价值——解放人类创造力。今日计划新增内容管理模块，实现H5页面文案和运营推广文案的系统化沉淀。全文由凤希AI智能生成，展现AI辅助工作的实际应用价值。

打造个人数字大脑：访答知识库深度指南

acbd1994的博客

12-23

730

本地私有知识库是指将个人或组织的知识资料存储在本地设备上，而非云端服务器。这种模式最大的优势在于数据完全由用户掌控，无需担心隐私泄露风险。与传统的云存储知识库相比，本地解决方案在数据安全性和访问速度上具有明显优势。

如果计算agv舵轮角度是否超限，当给定vx vy w时

君君的博客

12-25

281

agv 舵轮运动控制运动学模型

单细胞拟时序分析：揭示细胞动态发育的基因调控网络

2501_94211109的博客

12-24

853

单细胞拟时序分析是一种前沿计算生物学技术，通过重构单细胞转录组数据的连续动态轨迹，揭示细胞分化、发育等过程的基因调控网络。该技术面临数据稀疏性、高维处理、分支识别等技术挑战，核心算法包括最小生成树、概率图模型和深度学习方法。在发育生物学、疾病机制和再生医学等领域具有重要应用价值。未来发展方向包括多模态数据整合、动态模型构建和空间信息融合，为深入理解细胞动态发育提供新视角。

LLM 文本生成原理详解：从输入到输出

nvd11的专栏

12-21

713

本文概述了大型语言模型（LLM）生成文本的核心流程。LLM采用自回归方式，通过三个阶段的循环生成文本：编码（将文本转为数值向量）、预测（计算下一个token的概率分布）、解码（选择token并转回文本）。详细步骤包括：输入处理（分词和嵌入）、模型推理（自注意力机制和前馈网络计算）、输出解码（通过softmax和采样策略确定token）。整个过程循环进行，直到生成结束符。流程图展示了从输入到输出的完整循环过程，关键步骤包括tokenization、inference、sampling和自回归循环。

【开源客服系统推荐】AI-CS：一个开源的智能客服系统

m0_52224307的博客

12-22

351

polygon cruncher v12.25使用max

10-16

Polygon Cruncher是一个功能强大的三维模型优化工具...总的来说，通过使用Polygon Cruncher V12.25和Max，可以快速且有效地优化三维模型，以改善渲染和性能。无论是对于个人项目还是商业项目，这个工具都是非常有用的。