ChatGLM-Math：强化数学能力

最新推荐文章于 2025-06-07 22:46:44 发布

GLM大模型

最新推荐文章于 2025-06-07 22:46:44 发布

阅读量849

点赞数 24

文章标签：机器学习人工智能

本文链接：https://blog.youkuaiyun.com/GLM_ZhiPuAI/article/details/139153141

版权

大型语言模型（LLM）在文本摘要、问答和角色扮演对话等语言任务上表现出色，在数学推理等复杂问题上也具有应用潜力。

但目前提高 LLM 数学问题解决能力的方法，往往会导致其他方面能力的下降。例如RLHF的方法，虽然可以提高文本生成的质量，但却会忽略解决数学问题所需要的准确性和逻辑连贯性，而 SFT 微调，则可能降低大模型本身的语言多样性。

针对这一问题，我们提出了一种「Self-Critique」的迭代训练方法，通过自我反馈的机制，可以使 LLM 的语言能力和数学能力得到同步提升。

图：基于 Self-Critique 方法，ChatGLM3-32B的传统学术数据集数学能力（GSM8k）和分布外测试集匈牙利国家数学考试分数（Hungarian Exam Score）都得到了的提升。

此外，为了更加准确地评估 LLM 解决现实世界数学问题的能力，我们开发了 MathUserEval 评测基准。

项目地址：https://github.com/THUDM/ChatGLM-

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

GLM大模型

关注关注

24
点赞
踩
10

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

ChatGLM-Math: Improving Math Problem-Solving in Large Language Models with a Self-Critique Pipeline

c_cpp_csharp的专栏

10-25

347

大型语言模型（LLM）已经显示出对人类语言的出色掌握，但在需要解决数学问题的实际应用中仍然举步维艰。虽然已经开发了许多策略和数据集来增强 LLM 的数学能力，但在已部署的 LLM 系统中同时保持和改进语言和数学能力仍然是一个挑战。在这项工作中，我们定制了自我批评流程，解决了 LLM 对齐反馈学习阶段的挑战。我们首先从 LLM 本身训练一个通用的 Math-Critique 模型来提供反馈信号。然后，我们依次对 LLM 自己的生成采用拒绝微调和直接偏好优化进行数据收集。

ChatGLM-6B

AI工程化、开源分享、文档翻译、代码笔记

05-28

2414

壹、ChatGLM-6B 一、介绍二、使用方式硬件需求环境安装代码调用 Demo 网页版 Demo 命令行 Demo API部署低成本部署模型量化 CPU 部署 Mac 上的 GPU 加速高效参数微调局限性贰、 ChatGLM 微调一、介绍二、环境搭建 1、conda 构建环境 2.2 下载代码 2.3 安装依赖三、使用方法 1、训练数据下载 2、模型下载 3、模型训练 4、模型推理 5、生成结果分析 6、模型部署叁、ChatGLM + LoRA 进行finetune 一、前言二

1 条评论您还未登录，请先登录后发表或查看评论

数学问题求解能力提升：ChatGLM-Math模型的自我批评管道

人工智能讲师分享前沿技术

06-02

1374

大模型（LLMs）在处理语言任务上取得了巨大进步，但在解决需要数学推理的实际问题时仍面临挑战。这些挑战包括数学问题的复杂性、需要高度准确性和逻辑一致性的解答、缺乏深入的数学领域知识，以及现有模型对反馈的依赖性，这些因素共同导致了所谓的“对齐税”，即模型在数学推理任务上的性能与语言理解任务上的性能存在差异。本文介绍了ChatGLM-Math模型，这是一个通过自我批评管道来提升数学问题求解能力的LLM。该模型不仅提高了数学能力，同时还保持并增强了语言能力，实现了在不同任务上的性能提升。

ChatGLM模型详解及其应用场景探索

bishedaima_com_e的博客

06-09

457

标识符的中英双语训练，辅以监督微调、反馈自助、人类反馈强化学习等技术的加持，62亿个参数的ChatGLM-6B虽然规模不及千亿模型的ChatGLM-130B，但大大降低了推理成本，提升了效率，并且已经能生成相当符合人类偏好的回答。具体来说，ChatGLM-6B具备以下特点。再比如工业机器人领域，初看起来和ChatGPT、ChatGLM没什么关联，但是机器人的操作本质上是代码驱动的，如果利用人工智能让机器直接理解自然语言，那么中间的调试过程将大大减少，工业机器人的迭代速度很可能呈指数级上升。

百川智能RAG方案总结：搜索出生的百川智能大模型RAG爬坑之路

zenRRan的博客

01-05

1644

来自：NLP PaperWeekly今天对百川的RAG方法进行解读，百川智能具有深厚的搜索背景，来看看他们是怎么爬RAG的坑的吧～总的来说，百川通过长上下文模型(192k)+搜索增强结合的方法来解决知识更新，降低模型幻觉的问题，使得其在5000万tokens的数据集中取得95%的精度。其主要在以下几个方面做优化：1) Query拓展：这是我自己取的名字，可能不太准确，其主要参考Meta的CoVe[...

从零开始学ChatGLM3-6b大模型在本地平台的部署推理

weixin_44626085的博客

04-08

1488

ChatGLM3-6B 的基础模型 ChatGLM3-6B-Base 采用了更多样的训练数据、更充分的训练步数和更合理的训练策略。在语义、数学、推理、代码、知识等不同角度的数据集上测评显示，ChatGLM3-6B-Base 具有在 10B 以下的预训练模型中最强的性能。ChatGLM3-6B 采用了全新设计的Prompt 格式，除正常的多轮对话外。同时原生支持工具调用（Function Call）、代码执行（Code Interpreter）和 Agent 任务等复杂场景。

ChatGLM：大型语言模型家族，从GLM - 130B到GLM - 4所有工具论文解读

heyiqiunet的博客

10-21

1480

GLM - 4系列包括GLM - 4、GLM - 4 - Air和GLM - 4 - 9B，是能力最强的模型，融合了前三代ChatGLM的经验和教训。预训练在十万亿个主要为中文和英文的标记上进行，主要针对中文和英文进行了校准。校准流程包括有监督微调（SFT）和从人类反馈中学习（RLHF）。 GLM - 4全工具模型能理解用户意图，自主选择工具（如网络浏览器、Python解释器、文本到图像模型和用户自定义函数）完成复杂任务。

[代码生成-力扣评估]DeepSeek-Coder: When the Large Language Model MeetsProgramming - The Rise of Code Int长文

强化学习曾小健

10-24

740

这篇论文介绍了DeepSeek-Coder系列，这是一系列开源代码模型，其规模从1.3B到33B不等，通过在2万亿个标记上进行训练而开发。这些模型在多个基准测试中不仅达到了开源代码模型的最先进性能，而且还超越了现有的闭源模型，如Codex和GPT-3.5。此外，DeepSeek-Coder模型在允许研究和商业使用的许可下发布。

ChatGLM-Maths 开源项目使用手册

gitblog_00030的博客

09-11

483

ChatGLM-Maths 开源项目使用手册 chatglm-maths chatglm-6b微调/LORA/PPO/推理, 样本为自动生成的整数/小数加减乘除运算, 可gpu/cpu 项目地址: https://gitcode....

大模型升级与设计之道：ChatGLM、LLAMA、Baichuan及LLM结构解析

淘系技术

09-11

3566

本文通过深入剖析ChatGLM、LLAMA和Baichuan模型的升级路径，以及探讨大型语言模型结构选型，为大家提供了一个系统性的视角，梳理了大型预训练模型的关键要素。我们希望这些知识能够为大家在实际工程中构建更强大、灵活且高效的大型预训练模型提供有力的参考和指导。引言目前大语言模型在各个领域取得了显著的突破，从ChatGLM、LLAMA到Baichuan等，它们在处理各种自然语言任务时展现出了惊...

技术动态 | 模块化（Modular）RAG 和 RAG Flow

开放知识图谱

02-01

6849

随着RAG技术的演进，RAG整体的流程变动更加丰富和自由。具体表现在以下几个方面：在检索增强数据源上，不再局限于传统的纯⽂本⽂档为为代表的非结构化数据。越来越多的研究引⼊了半结构化数据（例如,PDF、HTML和LaTex）、结构化数据（例如三元组、KG、以及结构化查询语句）。经过预处理结构数据更进⼀步提供检索的逻辑性和可验证性，降低模型幻觉。此外，以检索LLM⾃身代替外部知识源的方法逐渐兴起。通过...

ChatGLM-Maths 微调套件指南

gitblog_00845的博客

09-11

894

ChatGLM-Maths 微调套件指南 chatglm-maths chatglm-6b微调/LORA/PPO/推理, 样本为自动生成的整数/小数加减乘除运算, 可gpu/cpu 项目地址: https://gitcode.co...

拒绝采样（reject sampling）Leetcode470

weixin_42294402的博客

08-14

253

然后引入常数 k 使得对所有的 z 满足 kg(z)≤p~(z) ，然后开始进行采样，在每次采样中先从 g(z) 中采样一个 z0 ，然后在区间 [0,kg(z0)] 里进行均匀采样，得到 u0。现在在正方形内随机生成大量的点，如图1所示，落在圆形区域内的点标记为红色，在圆形区域之外的点标记为蓝色，那么圆形区域内的点的个数与所有点的个数之比，可以认为近似等于 π/4。由于随机生成的范围10是大于7的，所以生成1次随机数无法生成1到10范围内，选择生成两次随机数，那么一共会有49中可能，

LLM大模型训练Trick系列之拒绝采样

zenRRan的博客

08-21

4561

来自：NLP工作站进NLP群—>加入NLP交流群今天给大家带来一篇dikw大佬（@知乎dikw）的LLM大模型拒绝采样的文章。知乎：https://zhuanlan.zhihu.com/p/649731916阅读该文章你想可以学习和了解：什么是拒绝采样？有哪些llm训练用到了RFT?为什么需要拒绝采样？拒绝采样能带来多少的提升？拒绝采样和强化学习是什么关系？RFT和SFT的关系？RFT为什么...

【动手学机器学习】第三章模式识别与机器学习经典算法——k 近邻算法

m0_55303420的博客

06-03

1148

一文入门机器学习

Python训练营-Day22-Titanic - Machine Learning from Disaster

weixin_59954476的博客

06-05

600

kaggle泰坦里克号人员生还预测

机器学习——聚类算法

Xyz_Overlord的博客

06-03

878

根据样本之间的相似性，将样本划分到不同的类别中的一种无监督学习算法。细节：根据样本之间的相似性，将样本划分到不同的类别中；不同的相似度计算方法，会得到不同的聚类结果，常用的相似度计算方法有欧式距离法。聚类算法的目的是在没有先验知识的情况下，自动发现数据集中的内在结构和模式。计算样本和样本之间的相似性，一般使用欧式距离。

使用Python和Scikit-Learn实现机器学习模型调优