PRIME开源项目使用教程-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00538/article/details/147062320

PRIME开源项目使用教程

PRIME Scalable RL solution for advanced reasoning of language models 项目地址: https://gitcode.com/gh_mirrors/prime1/PRIME

1. 项目介绍

PRIME（Process Reinforcement through IMplicit rEwards）是一个开源解决方案，旨在通过隐式奖励机制来增强大型语言模型的高级推理能力。该项目基于隐式过程奖励建模（PRM）理念，无需显式的过程标签，直接从结果奖励模型（ORM）训练得出，进而作为PRM使用。PRIME能够帮助模型通过推理规模提升性能，并在线强化学习训练中发挥真正的潜力。

2. 项目快速启动

快速启动项目，你需要遵循以下步骤：

首先，确保你已经安装了必要的依赖库，包括torch和transformers。以下是一个示例代码，展示了如何使用PRIME模型来生成回答：

import os
from tqdm import tqdm
import torch
from transformers import AutoTokenizer
from vllm import LLM, SamplingParams

os.environ["NCCL_IGNORE_DISABLED_P2P"] = "1"
os.environ["TOKENIZERS_PARALLELISM"] = "true"

def generate(question_list, model_path):
    llm = LLM(
        model=model_path,
        trust_remote_code=True,
        tensor_parallel_size=torch.cuda.device_count(),
        gpu_memory_utilization=0.90
    )
    sampling_params = SamplingParams(
        max_tokens=8192,
        temperature=0.0,
        n=1
    )
    outputs = llm.generate(question_list, sampling_params, use_tqdm=True)
    completions = [
        [output.text for output in output_item.outputs]
        for output_item in outputs
    ]
    return completions

def make_conv_hf(question, tokenizer):
    content = question + "\n\nPresent the answer in LaTex format: \\boxed{Your answer}"
    msg = [
        {
            "role": "user",
            "content": content
        }
    ]
    chat = tokenizer.apply_chat_template(msg, tokenize=False, add_generation_prompt=True)
    return chat

def run():
    model_path = "PRIME-RL/Eurus-2-7B-PRIME"
    all_problems = [
        "which number is larger? 9.11 or 9.9?"
    ]
    tokenizer = AutoTokenizer.from_pretrained(model_path)
    completions = generate(
        [make_conv_hf(problem_data, tokenizer) for problem_data in all_problems],
        model_path
    )
    print(completions)

# 执行函数
run()