自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 CUDA、PyTorch,Windows 环境配置指南(授人以渔版)

Compute Capability(计算能力)是NVIDIA用来标识GPU架构特性的版本号。它由主版本号和次版本号组成(如8.6),主版本号表示GPU的核心架构,次版本号表示该架构的增量改进。不同的CC支持不同的CUDA功能,如共享内存大小、最大线程数等。

2025-11-11 08:25:36 1306

原创 Terminal-Bench 2.0与Harbor:让AI代理评估更可靠、更高效

最近,Terminal-Bench的开发团队带来了两个重磅发布:Terminal-Bench 2.0,一个专注于评估自主AI代理在真实终端任务上的性能的基准测试套件,以及配套的运行框架Harbor。老白觉得这次更新有点让人眼前一亮,解决了很多关于测试和优化AI代理时困扰开发者和研究人员的老问题,尤其是那些需要在开发者环境中自主运行的AI代理。

2025-11-08 10:33:39 439

原创 LLM通过SVG代码理解世界

总的来说,这篇论文提出了一种既创新又实用的思路:用SVG代码作为AI理解图像的桥梁。虽然目前的AI在这方面还有很多不足,但是我们已经在向这个方向努力了。

2025-11-06 13:20:22 761

原创 从文本到多模态:MILU如何重新定义语言理解水平

在 2024-2025年间,MILU 应运而生,旨在弥补 MMMU(多模态知识理解)基准测试与实际可用性之间的一个细微但关键的差距。尽管 MMMU 测试的是多模态知识,MILU 则专注于测试多模态指令的执行能力。其目标是评估模型在理解视觉输入的同时,生成细致的文本或图形输出的能力,以及执行复杂、连贯任务的表现。MILU 测量模型作为一个合格且有帮助的多模态助手的能力。MILU 是一个新兴的基准测试类别,目前主要由开发面向消费者的多模态产品的公司推动。MILU 提供的任务要求模型根据用户指令对图像进行操作。

2025-11-04 23:12:49 248

原创 揭秘HumanEval:AI编程能力的终极测试

HumanEval是由 OpenAI于2021年开发的,用于评估大型语言模型(LLMs)的代码生成能力。随着像 Codex(GitHub Copilot的前身)这样的模型展现出非凡的软件编写能力,创建一种标准化的评估方法变得至关重要。早期的模型甚至难以解决少量问题。这推动了更高级的代码基准测试的发展,例如 MBPP(Mostly Basic Programming Problems)和更大规模的项目型评估。,它衡量在 k 个生成的解决方案中至少有一个能通过单元测试的比例。模型的任务是完成函数体。

2025-11-03 14:08:35 455

原创 LLM的全方位挑战 - MMLU

MMMU 已成为顶级多模态模型的“试金石”,是衡量旗舰多模态模型能力的首选基准测试。尽管像 GPT5 这样的顶级模型在 MMMU 上表现出了强大的能力,但它们在所有学科领域中仍然远未达到人类专家的水平。然而,随着技术的发展,下一步的挑战是多模态能力——即模型在文本、图像、图表、音频和视频等多种数据格式中理解和推理的能力。MMMU 的目标是提供一个全面、具有挑战性且可扩展的评估框架,用于衡量模型在跨多种数据格式中综合处理信息的能力。这一基准测试不仅测试模型的广度,还测试其对学术级别专业知识的深度理解。

2025-11-01 17:32:57 360

原创 LLM的极限测试 - HLE

HLE是2025年推出的一个超高难度 AI 测试,主要用来挖掘当前 AI 系统的极限和逻辑缺陷。简单来说,这更像是对 AI 的“极限挑战”,而不是传统的性能排名工具。HLE 的诞生背景源于对“基准测试饱和”问题的讨论。HLE 的目标不是对优秀的模型进行排名,而是挖掘 AI 推理能力中的未知缺陷,从而揭示其逻辑的根本性弱点。HLE 的目标非常明确:找到当前 AI 系统的绝对极限,并探索模型逻辑崩溃的地方。这些问题不仅仅是“难”,它们往往是反直觉的,或者故意设计成利用机器学习模型中常见的“捷径”缺陷。

2025-10-31 09:22:19 366

原创 LLM想作弊?道与魔的较量 - LiveBench

这种污染指的是,评测基准中的“未见过”的测试问题被意外包含在模型的训练数据中,导致模型在评测中给出“作弊式”的正确答案,使得得分虚高且失去意义。难度校准问题:由于每个月的问题来源不同,难度可能会有波动,这使得跟踪模型随时间的进步变得困难。紧贴现实世界:通过从当前的真实世界问题中抽取测试数据,LiveBench 测量了模型应对人类知识不断拓展的能力,以及解决最新问题的水平。自动化评分的局限性:依赖自动评分的方式,LiveBench 无法评估一些更主观的能力,例如写作风格、创造力或长篇内容的连贯性。

2025-10-30 09:24:47 596

原创 LLM理科掐尖生的高难度考试 - BBH&BBEH

BBH 与 BBEH:高难度AI推理测试,引领语言模型迈向更智能的未来!

2025-10-29 09:02:11 698

原创 LLM智力考察 - MMLU

随着大语言模型(LLM)在各领域的广泛应用,如何科学评估其性能变得尤为重要。在这一系列文章中,我们将探讨10种常用的评估方法,旨在帮助读者更系统地了解这些方法的适用场景、优势与局限,为大家揭秘大家常听到的各种“模型第一”都是怎么来的。这一篇,我们将给大家讲解的是MMLU(Massive Multitask Language Understanding)。

2025-10-28 09:35:54 277

原创 AI变革:测试工程师的机会来啦

近期经过和一些人聊天,对关注的一些招聘信息的了解,以及最近几年专注于构建自主AI系统的经验,老白觉得有一件事情变得非常明显且令人深刻感悟:AI测试并不是传统意义上的软件测试。作为技术从业者,我们正试图用一张旧地图去探索一块全新的大陆。而这正是许多看似前景光明的AI项目在带来实际价值之前就失败的主要原因。我们所有人都在专注于提示工程(Prompt Engineering)、上下文工程(Context Engineering)以及智能体工程(Agent Engineering)。

2025-10-27 19:14:44 818

原创 理解C# 核心概念 – C# 模块(module)

模块,准确的来说,并不是C#的概念,而是微软的运行时环境CLR的概念。想要学好C#断然不能只是会使用VS之类的IDE写写代码然后编译运行,很多相关的概念我们也需要去了解。这一节,我们就简单讨论下C#模块。其实C#模块,我们几乎每天都需要接触到(如果我们每天都需要写C#代码并且进行编译的话),每次我们对一个C#类(class)进行编译都会生成模块。csc编译获得模块下面,我们以经典的hello world为例。创建一个Program.cs文件,内容只是简单的向控制台输出hello wo..

2020-12-14 17:18:33 4403

原创 Mockito入门学习(3)–Partial Mock(部分模拟)

在上一篇,我们已经介绍了如何使用Mock()方法进行简单的state verification 和behavior verification。在这里,我们更进一步讲解mock的更多用法。在上一篇的讲解中,mock对象所有使用的方法全是mock的,mock对象的所有方法调用都没有真正运行方法中的代码逻辑。但是,有时进行测试的时候,我们并不希望模拟使用对象的所有方法,只希望模拟对象的部分方法,

2016-06-05 20:38:51 2911

原创 Mockito入门学习(2)--Mock的基本使用

为了方便在类中使用,可以使用java 的静态引入,将mockito中常用的方法引入到单元测试类中。Import static org.mockito.Mockito.*;创建Mock对象这里将会使用List作为测试的对象,主要原因是这个类比较常用,大家对接口也都比较熟悉。在mockito中要mock一个对象很简单,只需要调用mock(Class)方法即可。L

2016-05-24 19:17:22 1399

原创 Mockito入门学习(1)–概念介绍

首先, 在我们学习Mockito之前,我们需要区分几个概念,这几个概念对于我们接下来使用Mockito至关重要,只有理清了这几个概念,在我们使用Mockito接口以及进行解说的时候才不会觉得莫名。检测方式首先我们需要介绍的是检测的方式。我们写单元测试,以及使用Mockito都是为了检验我们的代码是否按照我们预期的那样运行。一般来说,有以下两种检测方式:状态检测(state

2016-05-22 14:25:54 685

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除