EleutherAI/lm-evaluation-harness 项目推荐

EleutherAI/lm-evaluation-harness 项目推荐

【免费下载链接】lm-evaluation-harness A framework for few-shot evaluation of autoregressive language models. 【免费下载链接】lm-evaluation-harness 项目地址: https://gitcode.com/GitHub_Trending/lm/lm-evaluation-harness

项目基础介绍和主要编程语言

EleutherAI/lm-evaluation-harness 是一个用于评估生成语言模型(LLMs)的开源框架。该项目主要使用 Python 编程语言开发,旨在为研究人员和开发者提供一个统一的工具,用于在大量不同的评估任务上测试语言模型。

项目核心功能

  1. 多任务评估:支持超过60个标准的学术基准测试,涵盖数百个子任务和变体。
  2. 模型支持:支持通过 transformers 库加载的模型,包括 GPT-NeoX 和 Megatron-DeepSpeed,以及通过量化技术(如 AutoGPTQ)加载的模型。
  3. 高效推理:支持使用 vLLM 进行快速和内存高效的推理。
  4. 商业API支持:支持 OpenAI 和 TextSynth 等商业API的评估。
  5. 自定义评估:支持自定义提示和评估指标,确保评估的灵活性和可扩展性。

项目最近更新的功能

  1. API模型支持更新:引入了对批处理和异步请求的支持,使得自定义和使用变得更加容易。
  2. 新任务添加:新增了 Open LLM Leaderboard 任务,可以在 leaderboard 任务组中找到。
  3. 内部重构:通过配置文件进行任务创建和配置,简化了外部定义任务配置 YAML 的导入和共享。
  4. Jinja2 提示设计支持:支持 Jinja2 提示设计,便于提示的修改和导入。
  5. 高级配置选项:增加了输出后处理、答案提取、多模型生成等高级配置选项。
  6. 性能优化:支持更快的数据并行 HF 模型使用、vLLM 支持、MPS 支持等,提升了评估速度。
  7. 新任务:新增了 CoT BIG-Bench-Hard、Belebele 等任务,并支持用户自定义任务分组。

通过这些更新,EleutherAI/lm-evaluation-harness 进一步提升了其作为语言模型评估工具的灵活性和实用性,为研究人员和开发者提供了更加强大的功能和更好的用户体验。

【免费下载链接】lm-evaluation-harness A framework for few-shot evaluation of autoregressive language models. 【免费下载链接】lm-evaluation-harness 项目地址: https://gitcode.com/GitHub_Trending/lm/lm-evaluation-harness

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值