1. 引言
基于前文构建训练/测试集构建的数据集,已经进行了多轮训练。但一直有一个数据层面的隐患在于,我们在给正向数据集所打的标签,并不是那么的准确。前面打标签的基本做法是:
- 从正向数据集中分割出的对话,都打的是正向标签
- 从反向数据集中分割出的对话,都打的是负向标签
后一类问题不大,但前一类其实是存在一些问题的,具体为:一个完整案例中带有欺诈时,并不见得从中分割出的子对话也带有欺诈。例如:
{"input": "李华: 您好,这里是电商平台的客服中心,请问您是张先生吗?\n张伟: 是的,我是张伟,请问有什么事吗?", "label": true, "fraud_speaker": "李华"}
{"input": "李华: 张先生,您最近在我平台上购买了一些商品对吧?我们这边检测到您的商品可能存在质量问题,为了保障您的权益,现在需要进行理赔退款。\n张伟: 哦,真的吗?那该怎么操作呢?", "labe