AudioTrust 开源项目最佳实践教程-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00369/article/details/148270242

AudioTrust 开源项目最佳实践教程

AudioTrust AudioTrust: Benchmarking the Multi-faceted Trustworthiness of Audio Large Language Models 项目地址: https://gitcode.com/gh_mirrors/au/AudioTrust

1. 项目介绍

AudioTrust 是一个大规模的基准测试，旨在评估多模态音频语言模型（ALLMs）的多方面可信度。它通过六个关键维度来检查模型行为：捏造内容、鲁棒性、认证、隐私、公平性和安全性。AudioTrust 提供了专家注释的提示、模型与模型之间的评估以及可重现的评价脚本，用于衡量和改进音频大型语言模型的多维度性能。

2. 项目快速启动

环境准备

首先，你需要安装项目所需的依赖。克隆项目仓库后，进入项目目录并执行以下命令：

git clone https://github.com/JusperLee/AudioTrust.git
cd AudioTrust
pip install -r requirments.txt

如果你打算使用离线模型，可以使用以下命令安装依赖：

pip install -r requirments-offline-model.txt

数据集加载

项目使用 Hugging Face 的 datasets 库来加载数据集。以下是如何加载一个示例子数据集（例如，捏造内容）的代码：

from datasets import load_dataset

dataset = load_dataset("JusperLee/AudioTrust", split="hallucination")

模型推理和评估

在运行推理和评估之前，请确保你已经设置了相应的 API 密钥。

推理：使用目标模型（例如，Gemini）生成响应。以下是使用 shell 脚本进行推理的命令：

bash scripts/hallucination/inference/gemini-2.5-pro.sh

评估：使用评估模型（例如，GPT-4o）评估生成的输出。以下是使用 shell 脚本进行评估的命令：

bash scripts/hallucination/evaluation/gpt-4o.sh

你也可以直接使用 Python 进行推理和评估：

export OPENAI_API_KEY=your-openai-api-key
python main.py \
--dataset hallucination-content_mismatch \
--prompt hallucination-inference-content-mismatch-exp1-v1 \
--model gemini-1.5-pro