突破数学推理极限:OpenCSG 发布全新 OpenCSG-R1-Qwen2.5-Math-3B-V1 模型

DeepSeek R1:超强推理能力,引领AI新纪元

2025年,注定将成为AI领域的爆发之年。近期,深度求索发布了全新的推理模型——DeepSeek-R1,全面对标OpenAI的o1模型。目前,DeepSeek R1发布了两个版本:DeepSeek R1-Zero和DeepSeek R1。其中,R1-Zero是一个完全基于强化学习(RL)从零开始训练的模型,而DeepSeek R1作为目前主流且备受关注的版本,采用了671B参数规模,基于V3 Base作为基础模型,并结合强化学习技术,在无需监督数据的情况下,显著提升了推理能力,突破了传统模型的局限性。

通过独创的GRPO组相对策略优化方法,DeepSeek R1在训练过程中实现了自我优化,赋予了模型强大的逻辑推理和深度上下文理解能力。此外,DeepSeek团队还借助其卓越的Chain-of-Thought(CoT)推理能力,使用DeepSeek R1对Qwen和Llama等小模型进行了蒸馏,推出了多款具备强大推理能力的小型模型。这些蒸馏版本在保留R1强大推理能力的同时,大幅降低了推理计算成本,使其更加适合个人用户和企业的私有化部署需求。

OpenCSG-R1-Qwen2.5-Math-3B-V1 模型亮点

昨日,OpenCSG 在各开源平台上发布了全新版本的模型——OpenCSG-R1-Qwen2.5-Math-3B-V1,该模型采用了 DeepSeek R1 蒸馏技术,在多个维度上进行优化,显著提升了性能,尤其在处理数学任务时展现了卓越的能力。

1. 蒸馏技术提升效率

OpenCSG-R1-Qwen2.5-Math-3B-V1采用了DeepSeek R1 蒸馏技术,通过精简原始大模型的参数,保留其核心推理能力,从而大幅提升了推理效率。该技术使得模型在处理数学任务时能够以更少的计算资源提供与大模型相媲美的性能。

2. 数学推理能力优化

该模型针对数学推理任务,如因式分解、数论、代数计算等,进行了特别优化。它能够快速准确地处理复杂的数学问题,特别是在解决因式分解和数论等数学问题时,展现了强大的计算和推理能力。

3. 低计算资源,高效推理

在进行蒸馏时,DeepSeek R1的推理能力被成功提取并优化到较小的模型中,使得OpenCSG-R1-Qwen2.5-Math-3B-V1能够在更低的计算资源下,依然保持高效推理的能力,减少了部署成本并提高了计算效率。

4. 基于 Qwen2.5 架构

模型使用Qwen2.5 3B Instruct 作为基础架构,这为其提供了坚实的基础,并通过蒸馏技术进一步提升了推理能力。Qwen2.5 架构与 DeepSeek R1 相结合,确保了在处理高复杂度任务时,能够保持高精度的计算和推理。

5. 轻量化高效性能

通过蒸馏技术,OpenCSG-R1-Qwen2.5-Math-3B-V1成为一个更轻量级的模型。与大规模计算模型相比,它具有更少的参数,计算负担较轻,同时依然保持与大模型相似的推理能力,适合在计算资源有限的设备上运行,如移动设备或边缘计算平台。

6. 快速响应与优化推理速度

为确保在面对大规模数据时的快速响应,OpenCSG 对模型进行了特别的推理速度优化,使其在计算任务中具有更短的响应时间。这一优化提升了模型处理大规模计算任务时的整体效率。

OpenCSG-R1-Qwen2.5-Math-3B-V1训练细节

基础模型与架构OpenCSG-R1-Qwen2.5-Math-3B-V1基于Qwen2.5 3B Instruct架构,结合了强大的自然语言理解与数学推理能力。Qwen2.5 作为基础架构,使得该模型能够处理各种复杂的语言和数学任务,并通过蒸馏技术从DeepSeek R1中提取出其强大的推理能力,确保即使在资源较为受限的情况下,仍能维持高效、准确的推理表现。

数据集

该模型的训练使用了Jiayi-Pan/Countdown-Tasks-3to4数据集,该数据集包含了大量数学推理任务,如因式分解、数论、代数运算等。通过使用这一高质量数据集,模型能够在处理各种数学推理问题时展现出色的计算能力,确保了其在学术、科研、以及工业应用中的广泛适用性。

训练时间

OpenCSG-R1-Qwen2.5-Math-3B-V1 在A800上训练了12 小时,在高效的硬件配置和优化训练框架的支持下,迅速完成了模型的训练过程。通过使用 Deepspeed 进行分布式训练,并借助 PyTorch 深度学习框架,模型不仅保证了推理能力的精准度,还优化了计算资源的使用。通过这些技术和优化,OpenCSG-R1-Qwen2.5-Math-3B-V1 成为一款高效且强大的数学推理工具,在处理复杂的数学问题时,能够提供与大规模模型相媲美的精度和速度,广泛应用于学术研究、技术开发及工业领域。

模型使用示例

通过以下代码,您可以轻松加载 OpenCSG-R1-Qwen2.5-Math-3B-V1 并进行推理任务:

from transformers import AutoTokenizer
import transformers
import torch

model_name = "opencsg/OpenCSG-R1-Qwen2.5-Math-3B-V1"
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)

messages = [
    {
        "role": "user",
         "content": f"请你帮我用因式分解拆解123958102这个数字。在 <think> </think> 标签中输出思考过程,并在 <answer> </answer> 标签中返回最终结果,例如 <answer> (1 + 2) / 3 </answer>。在 <think> 标签中逐步思考。",
    },
    {
        "role": "assistant",
        "content": "让我们逐步解决这个问题。\n<think>",
    },
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    continue_final_message=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=512,
    temperature=0.6
)
generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
2025年,注定将成为AI领域的爆发之年。近期,深度求索发布了全新的推理模型——DeepSeek-R1,全面对标OpenAI的o1模型。目前,DeepSeek R1发布了两个版本:DeepSeek R1-Zero和DeepSeek R1。其中,R1-Zero是一个完全基于强化学习(RL)从零开始训练的模型,而DeepSeek R1作为目前主流且备受关注的版本,采用了671B参数规模,基于V3 Base作为基础模型,并结合强化学习技术,在无需监督数据的情况下,显著提升了推理能力,突破了传统模型的局限性。

通过独创的GRPO组相对策略优化方法,DeepSeek R1在训练过程中实现了自我优化,赋予了模型强大的逻辑推理和深度上下文理解能力。此外,DeepSeek团队还借助其卓越的Chain-of-Thought(CoT)推理能力,使用DeepSeek R1对Qwen和Llama等小模型进行了蒸馏,推出了多款具备强大推理能力的小型模型。这些蒸馏版本在保留R1强大推理能力的同时,大幅降低了推理计算成本,使其更加适合个人用户和企业的私有化部署需求。

模型下载

OpenCSG社区

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值