老白说IT-优快云博客

原创 CUDA、PyTorch，Windows 环境配置指南(授人以渔版)

Compute Capability（计算能力）是NVIDIA用来标识GPU架构特性的版本号。它由主版本号和次版本号组成（如8.6），主版本号表示GPU的核心架构，次版本号表示该架构的增量改进。不同的CC支持不同的CUDA功能，如共享内存大小、最大线程数等。

2025-11-11 08:25:36 1306

原创 Terminal-Bench 2.0与Harbor：让AI代理评估更可靠、更高效

最近，Terminal-Bench的开发团队带来了两个重磅发布：Terminal-Bench 2.0，一个专注于评估自主AI代理在真实终端任务上的性能的基准测试套件，以及配套的运行框架Harbor。老白觉得这次更新有点让人眼前一亮，解决了很多关于测试和优化AI代理时困扰开发者和研究人员的老问题，尤其是那些需要在开发者环境中自主运行的AI代理。

2025-11-08 10:33:39 439

原创 LLM通过SVG代码理解世界

总的来说，这篇论文提出了一种既创新又实用的思路：用SVG代码作为AI理解图像的桥梁。虽然目前的AI在这方面还有很多不足，但是我们已经在向这个方向努力了。

2025-11-06 13:20:22 761

在 2024-2025年间，MILU 应运而生，旨在弥补 MMMU（多模态知识理解）基准测试与实际可用性之间的一个细微但关键的差距。尽管 MMMU 测试的是多模态知识，MILU 则专注于测试多模态指令的执行能力。其目标是评估模型在理解视觉输入的同时，生成细致的文本或图形输出的能力，以及执行复杂、连贯任务的表现。MILU 测量模型作为一个合格且有帮助的多模态助手的能力。MILU 是一个新兴的基准测试类别，目前主要由开发面向消费者的多模态产品的公司推动。MILU 提供的任务要求模型根据用户指令对图像进行操作。

2025-11-04 23:12:49 248

原创揭秘HumanEval：AI编程能力的终极测试

HumanEval是由 OpenAI于2021年开发的，用于评估大型语言模型（LLMs）的代码生成能力。随着像 Codex（GitHub Copilot的前身）这样的模型展现出非凡的软件编写能力，创建一种标准化的评估方法变得至关重要。早期的模型甚至难以解决少量问题。这推动了更高级的代码基准测试的发展，例如 MBPP（Mostly Basic Programming Problems）和更大规模的项目型评估。，它衡量在 k 个生成的解决方案中至少有一个能通过单元测试的比例。模型的任务是完成函数体。

2025-11-03 14:08:35 455

原创 LLM的全方位挑战 - MMLU

MMMU 已成为顶级多模态模型的“试金石”，是衡量旗舰多模态模型能力的首选基准测试。尽管像 GPT5 这样的顶级模型在 MMMU 上表现出了强大的能力，但它们在所有学科领域中仍然远未达到人类专家的水平。然而，随着技术的发展，下一步的挑战是多模态能力——即模型在文本、图像、图表、音频和视频等多种数据格式中理解和推理的能力。MMMU 的目标是提供一个全面、具有挑战性且可扩展的评估框架，用于衡量模型在跨多种数据格式中综合处理信息的能力。这一基准测试不仅测试模型的广度，还测试其对学术级别专业知识的深度理解。

2025-11-01 17:32:57 360

原创 LLM的极限测试 - HLE

HLE是2025年推出的一个超高难度 AI 测试，主要用来挖掘当前 AI 系统的极限和逻辑缺陷。简单来说，这更像是对 AI 的“极限挑战”，而不是传统的性能排名工具。HLE 的诞生背景源于对“基准测试饱和”问题的讨论。HLE 的目标不是对优秀的模型进行排名，而是挖掘 AI 推理能力中的未知缺陷，从而揭示其逻辑的根本性弱点。HLE 的目标非常明确：找到当前 AI 系统的绝对极限，并探索模型逻辑崩溃的地方。这些问题不仅仅是“难”，它们往往是反直觉的，或者故意设计成利用机器学习模型中常见的“捷径”缺陷。

2025-10-31 09:22:19 366

原创 LLM想作弊？道与魔的较量 - LiveBench

这种污染指的是，评测基准中的“未见过”的测试问题被意外包含在模型的训练数据中，导致模型在评测中给出“作弊式”的正确答案，使得得分虚高且失去意义。难度校准问题：由于每个月的问题来源不同，难度可能会有波动，这使得跟踪模型随时间的进步变得困难。紧贴现实世界：通过从当前的真实世界问题中抽取测试数据，LiveBench 测量了模型应对人类知识不断拓展的能力，以及解决最新问题的水平。自动化评分的局限性：依赖自动评分的方式，LiveBench 无法评估一些更主观的能力，例如写作风格、创造力或长篇内容的连贯性。

2025-10-30 09:24:47 596

原创 LLM理科掐尖生的高难度考试 - BBH&BBEH

BBH 与 BBEH：高难度AI推理测试，引领语言模型迈向更智能的未来！

2025-10-29 09:02:11 698

原创 LLM智力考察 - MMLU

随着大语言模型（LLM）在各领域的广泛应用，如何科学评估其性能变得尤为重要。在这一系列文章中，我们将探讨10种常用的评估方法，旨在帮助读者更系统地了解这些方法的适用场景、优势与局限，为大家揭秘大家常听到的各种“模型第一”都是怎么来的。这一篇，我们将给大家讲解的是MMLU（Massive Multitask Language Understanding）。

2025-10-28 09:35:54 277

原创 AI变革：测试工程师的机会来啦

近期经过和一些人聊天，对关注的一些招聘信息的了解，以及最近几年专注于构建自主AI系统的经验，老白觉得有一件事情变得非常明显且令人深刻感悟：AI测试并不是传统意义上的软件测试。作为技术从业者，我们正试图用一张旧地图去探索一块全新的大陆。而这正是许多看似前景光明的AI项目在带来实际价值之前就失败的主要原因。我们所有人都在专注于提示工程（Prompt Engineering）、上下文工程（Context Engineering）以及智能体工程（Agent Engineering）。

2025-10-27 19:14:44 818

原创理解C# 核心概念 – C# 模块（module）

模块，准确的来说，并不是C#的概念，而是微软的运行时环境CLR的概念。想要学好C#断然不能只是会使用VS之类的IDE写写代码然后编译运行，很多相关的概念我们也需要去了解。这一节，我们就简单讨论下C#模块。其实C#模块，我们几乎每天都需要接触到（如果我们每天都需要写C#代码并且进行编译的话），每次我们对一个C#类（class）进行编译都会生成模块。csc编译获得模块下面，我们以经典的hello world为例。创建一个Program.cs文件，内容只是简单的向控制台输出hello wo..

2020-12-14 17:18:33 4403

原创 Mockito入门学习(3)–Partial Mock(部分模拟)

在上一篇，我们已经介绍了如何使用Mock()方法进行简单的state verification 和behavior verification。在这里，我们更进一步讲解mock的更多用法。在上一篇的讲解中，mock对象所有使用的方法全是mock的，mock对象的所有方法调用都没有真正运行方法中的代码逻辑。但是，有时进行测试的时候，我们并不希望模拟使用对象的所有方法，只希望模拟对象的部分方法，

2016-06-05 20:38:51 2911

原创 Mockito入门学习(2)--Mock的基本使用

为了方便在类中使用，可以使用java 的静态引入，将mockito中常用的方法引入到单元测试类中。Import static org.mockito.Mockito.*;创建Mock对象这里将会使用List作为测试的对象，主要原因是这个类比较常用，大家对接口也都比较熟悉。在mockito中要mock一个对象很简单，只需要调用mock(Class)方法即可。L

2016-05-24 19:17:22 1399

原创 Mockito入门学习(1)–概念介绍

首先，在我们学习Mockito之前，我们需要区分几个概念，这几个概念对于我们接下来使用Mockito至关重要，只有理清了这几个概念，在我们使用Mockito接口以及进行解说的时候才不会觉得莫名。检测方式首先我们需要介绍的是检测的方式。我们写单元测试，以及使用Mockito都是为了检验我们的代码是否按照我们预期的那样运行。一般来说，有以下两种检测方式：状态检测（state

2016-05-22 14:25:54 685

老白的博客，致力于分享c#,python以及人工智能相关资讯