Arena-Hard-Auto 项目使用指南

Arena-Hard-Auto 项目使用指南

arena-hard-auto Arena-Hard-Auto: An automatic LLM benchmark. arena-hard-auto 项目地址: https://gitcode.com/gh_mirrors/ar/arena-hard-auto

1. 项目目录结构及介绍

arena-hard-auto/
├── BenchBuilder/
│   ├── config/
│   ├── data/
│   ├── leaderboard/
│   ├── misc/
│   ├── notebook/
│   ├── gitmodules
│   ├── LICENSE
│   ├── README.md
│   ├── add_markdown_info.py
│   ├── gen_answer.py
│   ├── gen_judgment.py
│   ├── qa_browser.py
│   ├── requirements-optional.txt
│   ├── requirements.txt
│   ├── show_result.py
│   ├── utils.py
│   └── utils_math.py
└── ...

目录结构介绍

  • BenchBuilder: 主要代码目录,包含项目的核心功能实现。
    • config: 配置文件目录,包含项目的配置文件。
    • data: 数据目录,包含项目所需的数据文件。
    • leaderboard: 排行榜目录,包含模型性能的排行榜数据。
    • misc: 杂项目录,包含一些辅助文件。
    • notebook: Jupyter Notebook 目录,包含用于数据分析和可视化的 Notebook 文件。
    • gitmodules: Git 子模块配置文件。
    • LICENSE: 项目许可证文件。
    • README.md: 项目说明文件。
    • add_markdown_info.py: 用于生成 Markdown 信息的脚本。
    • gen_answer.py: 用于生成模型回答的脚本。
    • gen_judgment.py: 用于生成模型判断的脚本。
    • qa_browser.py: 用于浏览问答数据的脚本。
    • requirements-optional.txt: 可选依赖项文件。
    • requirements.txt: 项目依赖项文件。
    • show_result.py: 用于展示结果的脚本。
    • utils.py: 通用工具函数脚本。
    • utils_math.py: 数学工具函数脚本。

2. 项目启动文件介绍

项目的启动文件是 show_result.py。该文件用于展示模型的评估结果,包括模型的得分、置信区间和平均 token 数量等信息。

启动步骤

  1. 进入项目目录:

    cd arena-hard-auto
    
  2. 运行启动文件:

    python show_result.py
    

3. 项目配置文件介绍

项目的配置文件主要位于 BenchBuilder/config 目录下。配置文件用于定义项目的各种参数,例如模型评估的基准模型、数据集路径等。

配置文件示例

# config/default.py

# 基准模型配置
BASELINE_MODEL = "gpt-4-0314"

# 数据集路径
DATASET_PATH = "data/arena-hard-v0.1"

# 其他配置参数
...

配置文件的使用

在项目启动时,配置文件会被自动加载,并应用于项目的各个模块中。如果需要修改配置,可以直接编辑 config 目录下的配置文件。


通过以上步骤,您可以顺利地了解和使用 Arena-Hard-Auto 项目。希望本指南对您有所帮助!

arena-hard-auto Arena-Hard-Auto: An automatic LLM benchmark. arena-hard-auto 项目地址: https://gitcode.com/gh_mirrors/ar/arena-hard-auto

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

富茉钰Ida

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值