InsuranceQA 语料库中文版使用教程

巫清焘

于 2024-10-10 08:41:08 发布

阅读量877

点赞数 16

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/gitblog_00372/article/details/142810359

InsuranceQA 语料库中文版使用教程

insuranceqa-corpus-zh :helicopter: 保险行业语料库，聊天机器人项目地址: https://gitcode.com/gh_mirrors/in/insuranceqa-corpus-zh

1. 项目目录结构及介绍

insuranceqa-corpus-zh/
├── corpus/
│   ├── pool/
│   │   ├── answers.json
│   │   ├── train.json.gz
│   │   ├── valid.json.gz
│   │   ├── test.json.gz
│   │   ├── train.txt.gz
│   │   ├── valid.txt.gz
│   │   └── test.txt.gz
├── scripts/
│   ├── setup.py
├── .gitignore
├── LICENSE
├── README.md
└── setup.cfg

目录结构说明

corpus/: 包含语料库数据文件，分为pool和pair两种格式。
- pool/: 包含训练集、验证集、测试集和答案数据，格式为json和txt。
scripts/: 包含项目的安装脚本setup.py。
.gitignore: Git忽略文件配置。
LICENSE: 项目许可证文件。
README.md: 项目说明文档。
setup.cfg: 项目配置文件。

2. 项目启动文件介绍

项目的主要启动文件是scripts/setup.py，该文件用于安装项目的依赖和语料库数据。

启动步骤

安装依赖:
```
pip install -U insuranceqa_data
```
设置环境变量:
```
export INSQA_DL_LICENSE=YOUR_LICENSE
```

下载语料库数据:

python -c "import insuranceqa_data; insuranceqa_data.download_corpus()"

3. 项目配置文件介绍

项目的配置文件是setup.cfg，该文件包含了项目的元数据和安装配置。

配置文件内容

[metadata]
name = insuranceqa-corpus-zh
version = 1.0
description = 保险行业语料库，聊天机器人
author = Chatopera Inc.
license = Chunsong Public License, version 1.0

[options]
packages = find:
install_requires =
    insuranceqa_data