这是 大模型评估排障指南 系列文章的第二篇,敬请关注系列文章:
- 关于推理
- 关于 LATEX 公式解析
- 关于可复现性
解析 LaTeX 很难。这个问题在评估输出为 LATEX 的模型时经常会遇到,例如 Hugging Face 的 数学评估基准。
这个基准使用 LATEX 来表示数学领域的计算和符号。评估难点在于对模型输出与标准答案的解析和比较。
结果表明,解析 LATEX 没有标准方法。
摘自 sympy 文档
lm-evaluation 框架使用 sympy (一个用于符号数学的 Python 库) 来对 latex 进行解析和比较。
使用 sympy
解析真值 (用真值自身对比测试) 只能得到约 0.94 的准确率。
怎么会是这样呢?后来发现 sympy
无法解析某些 (标准的 LATEX) 表达式。
例如:
couldn't parse one of [0,1) 或 [0,1), I expected one of these: ']' | |
[0,1) | |
~~^ |
couldn't parse one of (-\iny,-5]\cup[5,\iny) or (-\iny,-5]\cup[5,\iny), I expected something else here | |
(-\iny,-5]\cup[5,\iny) | |
~~~~~~^ |
couldn't parse one of -\frac{1}{{}2x} or -\frac{1}{{}2x}, I don't understand this | |
-\frac{1}{{}2x} | |
~~~~~~~~~~~^ |
如何缓解这个问题?
重写 LATEX 语法解析模块 并在代码中添加必须功能;或者往代码里添加人工检查来提高模型得分。
在几乎陷入问题陷阱之后,我们认为在代码中添加字符串比较检查差不多就能缓解这个问题了。
LM 评估工具修复
结果
修复前后模型 Top 25 对比结果表格如下:
解析器修复前后模型在 MATH 基准测试结果对比 | ||||
Model | Score | Rank | ||
---|---|---|---|---|
Original | Fixed parser | Original | Fixed parser | |
rombodawg/Rombos-LLM-V2.5-Qwen-72b | 47.58 | 50.68 | 1 | 1 |
MaziyarPanahi/calme-2.2-qwen2-72b | 41.16 | 43.43 | 2 | 2 |
arcee-ai/Arcee-Nova | 40.48 | 42.90 | 3 | 3 |
fblgit/TheBeagle-v2beta-32B-MGS | 39.43 | 42.52 | 4 | 4 |
rombodawg/Rombos-LLM-V2.5-Qwen-32b | 39.12 | 41.99 | 5 | 5 |
dnhkng/RYS-XLarge | 38.97 | 41.24 | 6 | 6 |
dfurman/CalmeRys-78B-Orpo-v0.1 | 37.92 | 40.71 | 8 | 7 |
MaziyarPanahi/calme-2.2-rys-78b | 37.92 | 39.95 | 8 | 9 |
MaziyarPanahi/calme-2.4-rys-78b | 37.69 | 40.41 | 9 | 8 |
MaziyarPanahi/calme-2.3-rys-78b | 36.56 | 38.97 | 10 | 10 |
MaziyarPanahi/calme-2.1-rys-78b | 36.40 | 38.90 | 11 | 11 |
Qwen/Qwen2.5-72B | 36.10 | 38.67 | 12 | 12 |
MaziyarPanahi/calme-2.1-qwen2-72b | 36.03 | 38.07 | 13 | 15 |
Qwen/Qwen2-Math-72B-Instruct | 35.95 | 38.14 | 14 | 14 |
dfurman/Qwen2-72B-Orpo-v0.1 | 35.42 | 38.14 | 15 | 13 |
abacusai/Smaug-Qwen2-72B-Instruct | 35.35 | 37.46 | 16 | 19 |
anthracite-org/magnum-v1-72b | 35.27 | 37.69 | 18 | 16 |
alpindale/magnum-72b-v1 | 35.27 | 37.69 | 18 | 16 |
Qwen/Qwen2-72B-Instruct | 35.12 | 37.69 | 19 | 18 |
dnhkng/RYS-XLarge-base | 34.67 | 37.16 | 20 | 20 |
Undi95/MG-FinalMix-72B | 33.61 | 36.10 | 22 | 21 |
abacusai/Dracarys-72B-Instruct | 33.61 | 35.65 | 22 | 22 |
Qwen/Qwen2.5-32B | 32.85 | 35.50 | 23 | 23 |
anthracite-org/magnum-v2-72b | 31.65 | 34.06 | 24 | 24 |
dnhkng/RYS-Huge-bnb-4bit | 31.57 | 33.84 | 25 | 25 |
如何系统的去学习大模型LLM ?
大模型时代,火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业
?”“谁的饭碗又将不保了?
”等问题热议不断。
事实上,抢你饭碗的不是AI,而是会利用AI的人。
继科大讯飞、阿里、华为
等巨头公司发布AI产品后,很多中小企业也陆续进场!超高年薪,挖掘AI大模型人才! 如今大厂老板们,也更倾向于会AI的人,普通程序员,还有应对的机会吗?
与其焦虑……
不如成为「掌握AI工具的技术人
」,毕竟AI时代,谁先尝试,谁就能占得先机!
但是LLM相关的内容很多,现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学,学习成本和门槛很高。
基于此,我用做产品的心态来打磨这份大模型教程,深挖痛点并持续修改了近70次后,终于把整个AI大模型的学习门槛,降到了最低!
在这个版本当中:
第一您不需要具备任何算法和数学的基础
第二不要求准备高配置的电脑
第三不必懂Python等任何编程语言
您只需要听我讲,跟着我做即可,为了让学习的道路变得更简单,这份大模型教程已经给大家整理并打包,现在将这份 LLM大模型资料
分享出来:包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程
等, 😝有需要的小伙伴,可以 扫描下方二维码领取🆓↓↓↓
一、LLM大模型经典书籍
AI大模型已经成为了当今科技领域的一大热点,那以下这些大模型书籍就是非常不错的学习资源。
二、640套LLM大模型报告合集
这套包含640份报告的合集,涵盖了大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(几乎涵盖所有行业)
三、LLM大模型系列视频教程
四、LLM大模型开源教程(LLaLA/Meta/chatglm/chatgpt)
五、AI产品经理大模型教程
LLM大模型学习路线 ↓
阶段1:AI大模型时代的基础理解
-
目标:了解AI大模型的基本概念、发展历程和核心原理。
-
内容:
- L1.1 人工智能简述与大模型起源
- L1.2 大模型与通用人工智能
- L1.3 GPT模型的发展历程
- L1.4 模型工程
- L1.4.1 知识大模型
- L1.4.2 生产大模型
- L1.4.3 模型工程方法论
- L1.4.4 模型工程实践
- L1.5 GPT应用案例
阶段2:AI大模型API应用开发工程
-
目标:掌握AI大模型API的使用和开发,以及相关的编程技能。
-
内容:
- L2.1 API接口
- L2.1.1 OpenAI API接口
- L2.1.2 Python接口接入
- L2.1.3 BOT工具类框架
- L2.1.4 代码示例
- L2.2 Prompt框架
- L2.3 流水线工程
- L2.4 总结与展望
阶段3:AI大模型应用架构实践
-
目标:深入理解AI大模型的应用架构,并能够进行私有化部署。
-
内容:
- L3.1 Agent模型框架
- L3.2 MetaGPT
- L3.3 ChatGLM
- L3.4 LLAMA
- L3.5 其他大模型介绍
阶段4:AI大模型私有化部署
-
目标:掌握多种AI大模型的私有化部署,包括多模态和特定领域模型。
-
内容:
- L4.1 模型私有化部署概述
- L4.2 模型私有化部署的关键技术
- L4.3 模型私有化部署的实施步骤
- L4.4 模型私有化部署的应用场景
这份 LLM大模型资料
包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程
等, 😝有需要的小伙伴,可以 扫描下方二维码领取🆓↓↓↓