SimpleTransformers项目中的问答任务数据格式详解-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00771/article/details/148548763

SimpleTransformers项目中的问答任务数据格式详解

simpletransformers Transformers for Classification, NER, QA, Language Modelling, Language Generation, T5, Multi-Modal, and Conversational AI 项目地址: https://gitcode.com/gh_mirrors/si/simpletransformers

前言

在自然语言处理领域，问答系统(Question Answering)是一项重要且具有挑战性的任务。SimpleTransformers作为一个简化Transformer模型使用的库，为问答任务提供了便捷的接口。本文将全面解析SimpleTransformers中问答任务支持的数据格式，帮助开发者正确准备和格式化数据。

数据格式概述

SimpleTransformers支持两种形式的数据输入：

JSON文件路径：指向包含格式化数据的JSON文件
Python字典列表：直接在代码中以列表形式组织的数据

这两种形式的数据结构完全一致，开发者可以根据实际场景选择更合适的方式。

数据结构详解

问答任务的基础数据结构是一个包含多个字典的列表，每个字典代表一个上下文及其相关的问题集合。每个字典必须包含两个关键字段：

1. context字段

类型：字符串
说明：提供问题相关的上下文段落或文本内容
示例："Mistborn是由美国作家Brandon Sanderson创作的史诗奇幻小说系列。"

2. qas字段

类型：字典列表
说明：包含针对当前上下文提出的问题及其答案
每个问题字典包含以下字段：
- id：唯一标识符（字符串）
- question：问题文本（字符串）
- is_impossible：布尔值，表示该问题是否无法从上下文中得到答案
- answers：答案列表（对于训练数据，每个问题只能有一个正确答案）

每个答案字典包含：

text：答案文本（必须是上下文的子串）
answer_start：答案在上下文中的起始位置索引（整数）

训练数据格式

训练数据用于模型的train_model()方法，必须严格遵循以下规则：

每个问题必须有且仅有一个正确答案
对于无法回答的问题，is_impossible应设为True，且answers列表为空
答案文本必须是上下文的精确子串，且answer_start必须准确

示例代码

train_data = [
    {
        "context": "Mistborn是由美国作家Brandon Sanderson创作的史诗奇幻小说系列。",
        "qas": [
            {
                "id": "00001",
                "is_impossible": False,
                "question": "Mistborn系列的作者是谁？",
                "answers": [
                    {
                        "text": "Brandon Sanderson",
                        "answer_start": 10  # 中文环境下的起始位置
                    }
                ]
            }
        ]
    }
]

评估数据格式

评估数据用于eval_model()方法，与训练数据格式类似，但有以下区别：

允许一个问题有多个正确答案
仍然需要提供is_impossible标识

示例代码

eval_data = [
    {
        "context": "该系列主要发生在名为Final Region的地区，在一个叫Scadrial的世界。",
        "qas": [
            {
                "id": "00001",
                "is_impossible": False,
                "question": "故事发生在哪里？",
                "answers": [
                    {
                        "text": "Final Region",
                        "answer_start": 10
                    },
                    {
                        "text": "Scadrial",
                        "answer_start": 25
                    }
                ]
            }
        ]
    }
]

预测数据格式

当使用predict()方法进行预测时，数据结构更为简单，因为不需要提供答案：

to_predict = [
    {
        "context": "Vin是一位拥有强大力量的Mistborn。",
        "qas": [
            {
                "question": "Vin的特殊能力是什么？",
                "id": "0"
            }
        ]
    }
]