LLM大模型评估排障指南 | 关于 LaTeX 公式解析

最新推荐文章于 2025-11-07 14:36:35 发布

原创最新推荐文章于 2025-11-07 14:36:35 发布 · 1k 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#langchain #大数据 #embedding #LLM #人工智能 #大模型

这是 大模型评估排障指南 系列文章的第二篇，敬请关注系列文章:

关于推理
关于 LATEX 公式解析
关于可复现性

解析 LaTeX 很难。这个问题在评估输出为 LATEX 的模型时经常会遇到，例如 Hugging Face 的数学评估基准。

这个基准使用 LATEX 来表示数学领域的计算和符号。评估难点在于对模型输出与标准答案的解析和比较。
结果表明，解析 LATEX 没有标准方法。

摘自 sympy 文档

lm-evaluation 框架使用 sympy (一个用于符号数学的 Python 库) 来对 latex 进行解析和比较。
使用 sympy 解析真值 (用真值自身对比测试) 只能得到约 0.94 的准确率。
怎么会是这样呢？后来发现 sympy 无法解析某些 (标准的 LATEX) 表达式。

例如:

	`couldn't parse one of [0,1) 或 [0,1)， I expected one of these: ']'`
	`[0,1)`
	`~~^`

	`couldn't parse one of (-\iny,-5]\cup[5,\iny) or (-\iny,-5]\cup[5,\iny), I expected something else here`
	`(-\iny,-5]\cup[5,\iny)`
	`~~~~~~^`

	`couldn't parse one of -\frac{1}{{}2x} or -\frac{1}{{}2x}, I don't understand this`
	`-\frac{1}{{}2x}`
	`~~~~~~~~~~~^`

如何缓解这个问题？

重写 LATEX 语法解析模块并在代码中添加必须功能；或者往代码里添加人工检查来提高模型得分。
在几乎陷入问题陷阱之后，我们认为在代码中添加字符串比较检查差不多就能缓解这个问题了。

Lm Eval 工具修复

LM 评估工具修复

结果

修复前后模型 Top 25 对比结果表格如下：

Model	Score		Rank
解析器修复前后模型在 MATH 基准测试结果对比
Model	Original	Fixed parser	Original	Fixed parser
rombodawg/Rombos-LLM-V2.5-Qwen-72b	47.58	50.68	1	1
MaziyarPanahi/calme-2.2-qwen2-72b	41.16	43.43	2	2
arcee-ai/Arcee-Nova	40.48	42.90	3	3
fblgit/TheBeagle-v2beta-32B-MGS	39.43	42.52	4	4
rombodawg/Rombos-LLM-V2.5-Qwen-32b	39.12	41.99	5	5
dnhkng/RYS-XLarge	38.97	41.24	6	6
dfurman/CalmeRys-78B-Orpo-v0.1	37.92	40.71	8	7
MaziyarPanahi/calme-2.2-rys-78b	37.92	39.95	8	9
MaziyarPanahi/calme-2.4-rys-78b	37.69	40.41	9	8
MaziyarPanahi/calme-2.3-rys-78b	36.56	38.97	10	10
MaziyarPanahi/calme-2.1-rys-78b	36.40	38.90	11	11
Qwen/Qwen2.5-72B	36.10	38.67	12	12
MaziyarPanahi/calme-2.1-qwen2-72b	36.03	38.07	13	15
Qwen/Qwen2-Math-72B-Instruct	35.95	38.14	14	14
dfurman/Qwen2-72B-Orpo-v0.1	35.42	38.14	15	13
abacusai/Smaug-Qwen2-72B-Instruct	35.35	37.46	16	19
anthracite-org/magnum-v1-72b	35.27	37.69	18	16
alpindale/magnum-72b-v1	35.27	37.69	18	16
Qwen/Qwen2-72B-Instruct	35.12	37.69	19	18
dnhkng/RYS-XLarge-base	34.67	37.16	20	20
Undi95/MG-FinalMix-72B	33.61	36.10	22	21
abacusai/Dracarys-72B-Instruct	33.61	35.65	22	22
Qwen/Qwen2.5-32B	32.85	35.50	23	23
anthracite-org/magnum-v2-72b	31.65	34.06	24	24
dnhkng/RYS-Huge-bnb-4bit	31.57	33.84	25	25

如何系统的去学习大模型LLM ？

大模型时代，火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业？”“谁的饭碗又将不保了？”等问题热议不断。

事实上，抢你饭碗的不是AI，而是会利用AI的人。

继科大讯飞、阿里、华为等巨头公司发布AI产品后，很多中小企业也陆续进场！超高年薪，挖掘AI大模型人才！ 如今大厂老板们，也更倾向于会AI的人，普通程序员，还有应对的机会吗？

与其焦虑……

不如成为「掌握AI工具的技术人」，毕竟AI时代，谁先尝试，谁就能占得先机！

但是LLM相关的内容很多，现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学，学习成本和门槛很高。

基于此，我用做产品的心态来打磨这份大模型教程，深挖痛点并持续修改了近70次后，终于把整个AI大模型的学习门槛，降到了最低！

在这个版本当中：

第一您不需要具备任何算法和数学的基础
第二不要求准备高配置的电脑
第三不必懂Python等任何编程语言

您只需要听我讲，跟着我做即可，为了让学习的道路变得更简单，这份大模型教程已经给大家整理并打包，现在将这份 LLM大模型资料 分享出来：包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴，可以 扫描下方二维码领取🆓↓↓↓

一、LLM大模型经典书籍

AI大模型已经成为了当今科技领域的一大热点，那以下这些大模型书籍就是非常不错的学习资源。

在这里插入图片描述

二、640套LLM大模型报告合集

这套包含640份报告的合集，涵盖了大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。(几乎涵盖所有行业)
在这里插入图片描述

三、LLM大模型系列视频教程

在这里插入图片描述

四、LLM大模型开源教程（LLaLA/Meta/chatglm/chatgpt）

在这里插入图片描述

五、AI产品经理大模型教程

在这里插入图片描述

LLM大模型学习路线 ↓

阶段1：AI大模型时代的基础理解

目标：了解AI大模型的基本概念、发展历程和核心原理。
内容：
- L1.1 人工智能简述与大模型起源
- L1.2 大模型与通用人工智能
- L1.3 GPT模型的发展历程
- L1.4 模型工程
- L1.4.1 知识大模型
- L1.4.2 生产大模型
- L1.4.3 模型工程方法论
- L1.4.4 模型工程实践
- L1.5 GPT应用案例

阶段2：AI大模型API应用开发工程

目标：掌握AI大模型API的使用和开发，以及相关的编程技能。
内容：
- L2.1 API接口
- L2.1.1 OpenAI API接口
- L2.1.2 Python接口接入
- L2.1.3 BOT工具类框架
- L2.1.4 代码示例
- L2.2 Prompt框架
- L2.3 流水线工程
- L2.4 总结与展望