TabLLM 项目使用教程-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00512/article/details/142609591

TabLLM 项目使用教程

TabLLM 项目地址: https://gitcode.com/gh_mirrors/ta/TabLLM

1. 项目目录结构及介绍

TabLLM/
├── datasets/
│   ├── datasets_serialized/
│   └── helper/
├── t-few/
│   ├── bin/
│   ├── configs/
│   ├── src/
│   │   ├── data/
│   │   ├── models/
│   │   └── scripts/
├── templates/
├── LICENSE
├── README.md
├── create_external_datasets.py
├── evaluate_external_dataset.py
└── query_gpt3.py

目录结构介绍

datasets/: 包含数据集的目录，其中 datasets_serialized/ 用于存储序列化后的数据集，helper/ 包含辅助脚本。
t-few/: 包含 t-few 项目的相关代码，包括训练和评估脚本。
- bin/: 包含执行实验的脚本。
- configs/: 包含配置文件。
- src/: 包含源代码，包括数据处理、模型定义和结果收集脚本。
templates/: 包含用于序列化的模板文件。
LICENSE: 项目的许可证文件。
README.md: 项目的说明文档。
create_external_datasets.py: 用于创建外部数据集的脚本。
evaluate_external_dataset.py: 用于评估外部数据集的脚本。
query_gpt3.py: 用于查询 GPT-3 API 的脚本。

2. 项目启动文件介绍

启动文件

create_external_datasets.py: 该脚本用于创建外部数据集的文本序列化。可以通过以下命令运行：
```
python create_external_datasets.py --dataset <dataset_name> --list --tabletotext
```
其中 <dataset_name> 可以是 car, income, diabetes, heart, bank, blood, calhousing, creditg, jungle 中的一个。
evaluate_external_dataset.py: 该脚本用于评估外部数据集。可以通过以下命令运行：
```
python evaluate_external_dataset.py --dataset <dataset_name>
```
query_gpt3.py: 该脚本用于查询 GPT-3 API。可以通过以下命令运行：
```
python query_gpt3.py --input <input_file> --output <output_file>
```

3. 项目的配置文件介绍

配置文件

t-few/configs/: 该目录包含 t-few 项目的配置文件，用于定义实验的参数和设置。例如：
```
{
  "model_name": "t03b",
  "dataset": "heart",
  "num_shots": 4,
  "seed": 42
}
```
t-few/src/data/dataset_readers.py: 该文件包含数据集读取器的配置，特别是路径设置。确保 DATASETS_OFFLINE 指向 /root/TabLLM/datasets_serialized，并且 yaml_dict 使用路径 /root/TabLLM/templates/templates_。

配置示例

# t-few/src/data/dataset_readers.py

DATASETS_OFFLINE = "/root/TabLLM/datasets_serialized"
yaml_dict = yaml.load(open("/root/TabLLM/templates/templates_"))

通过以上配置，可以确保项目在运行时能够正确读取数据集和模板文件。

TabLLM 项目地址: https://gitcode.com/gh_mirrors/ta/TabLLM

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考