TabLLM 项目使用教程
TabLLM 项目地址: https://gitcode.com/gh_mirrors/ta/TabLLM
1. 项目目录结构及介绍
TabLLM/
├── datasets/
│ ├── datasets_serialized/
│ └── helper/
├── t-few/
│ ├── bin/
│ ├── configs/
│ ├── src/
│ │ ├── data/
│ │ ├── models/
│ │ └── scripts/
├── templates/
├── LICENSE
├── README.md
├── create_external_datasets.py
├── evaluate_external_dataset.py
└── query_gpt3.py
目录结构介绍
- datasets/: 包含数据集的目录,其中
datasets_serialized/
用于存储序列化后的数据集,helper/
包含辅助脚本。 - t-few/: 包含
t-few
项目的相关代码,包括训练和评估脚本。- bin/: 包含执行实验的脚本。
- configs/: 包含配置文件。
- src/: 包含源代码,包括数据处理、模型定义和结果收集脚本。
- templates/: 包含用于序列化的模板文件。
- LICENSE: 项目的许可证文件。
- README.md: 项目的说明文档。
- create_external_datasets.py: 用于创建外部数据集的脚本。
- evaluate_external_dataset.py: 用于评估外部数据集的脚本。
- query_gpt3.py: 用于查询 GPT-3 API 的脚本。
2. 项目启动文件介绍
启动文件
-
create_external_datasets.py: 该脚本用于创建外部数据集的文本序列化。可以通过以下命令运行:
python create_external_datasets.py --dataset <dataset_name> --list --tabletotext
其中
<dataset_name>
可以是car
,income
,diabetes
,heart
,bank
,blood
,calhousing
,creditg
,jungle
中的一个。 -
evaluate_external_dataset.py: 该脚本用于评估外部数据集。可以通过以下命令运行:
python evaluate_external_dataset.py --dataset <dataset_name>
-
query_gpt3.py: 该脚本用于查询 GPT-3 API。可以通过以下命令运行:
python query_gpt3.py --input <input_file> --output <output_file>
3. 项目的配置文件介绍
配置文件
-
t-few/configs/: 该目录包含
t-few
项目的配置文件,用于定义实验的参数和设置。例如:{ "model_name": "t03b", "dataset": "heart", "num_shots": 4, "seed": 42 }
-
t-few/src/data/dataset_readers.py: 该文件包含数据集读取器的配置,特别是路径设置。确保
DATASETS_OFFLINE
指向/root/TabLLM/datasets_serialized
,并且yaml_dict
使用路径/root/TabLLM/templates/templates_
。
配置示例
# t-few/src/data/dataset_readers.py
DATASETS_OFFLINE = "/root/TabLLM/datasets_serialized"
yaml_dict = yaml.load(open("/root/TabLLM/templates/templates_"))
通过以上配置,可以确保项目在运行时能够正确读取数据集和模板文件。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考