本文原创作者:姚瑞南 AI-Agent 大模型运营专家,先后任职于美团、猎聘等中大厂AI训练专家和智能运营专家岗;多年人工智能行业智能产品运营及大模型落地经验,拥有AI外呼方向国家专利与PMP项目管理证书。(转载需经授权)
目录
1. 标签统计字段说明:一级归类标签-二级标签;一级标签数量-二级标签数量
一、日常数据统计格式
日期 | 会话id | 用户输入内容 | 机器人识别类型名称 | 直接识别问题 | 间接识别答案1 | 间接识别答案2 | 间接识别答案3 | 用户选择的间接识别答案 |
2022-07-03 | 1543384779058249817 | 我要回家了 中午之前回家来不及了 | 间接识别 | - | 物流送货超时 | 如何申请退款 | 什么时间可以取货 | 如何申请退款 |
二、数据周报/月报格式
1. 标签统计字段说明:一级归类标签-二级标签;一级标签数量-二级标签数量
字段 | 数据来源 | 统计方式 | 一级标签种类 | 二级标签种类 | 一级标签数量统计 | 二级标签数量统计 | 周标注量 | 占比情况 |
说明 | 全量交互数据 | 日/周/月维度 | 1、意图缺失 2、拓展问缺失 3、标准问缺失 4、多意图问题、知识缠绕 5、错别字/繁体字 6、长文本复杂query | 一级标签下对应的二级种类 | XX | XX | 每人每周总量累计 | 各标签占比情况 |
2. 数据汇总表格格式
汇总 | ||||||
一级标签名称 | 拓展问缺失 | 意图缺失 | 标准问缺失 | 多意图、缠绕 | 错别字 | 长文本复杂query/其他 |
数量 | 2024 | 34 | 52 | 354 | 4 | 6 |
总量 | 2477 |
3. 识别训练数据周报模板
周工作量 | 一级标签 | 一级标签数量 | 二级标签 | 二级标签数量 | 周占比情况(二级) | 周占比情况(一级) |
意图缺失 | xx | 上下文缺失 | XX | |||
语义不明 | XX | |||||
意图模糊 | XX | |||||
拓展问缺失 | XX | 间接识别命中标准问 | XX | |||
间接识别未命中标准问 | XX | |||||
标准问缺失 | 缺失对应标准问 | |||||
缺失某标准问下的具体细分场景 | ||||||
多意图问题、知识缠绕 | 用户query宽泛,可以命中多个标准问 | |||||
用户query包含多个问句,每个问句命中一个标准问 | ||||||
错别字/繁体字 | 纠错后有意图 | |||||
无法纠错/判断不出意图 | ||||||
长文本复杂query |
数据说明:
解决方案:
4. 识别训练数据月报模板
周工作量 | 一级标签 | 一级标签数量 | 二级标签 | 二级标签数量 | 月占比情况(二级) | 月占比情况(一级) |
意图缺失 | XX | 上下文缺失 | XX | |||
语义不明 | XX | |||||
意图模糊 | XX | |||||
拓展问缺失 | XX | 间接识别命中标准问 | XX | |||
间接识别未命中标准问 | XX | |||||
标准问缺失 | 缺失对应标准问 | |||||
缺失某标准问下的具体细分场景 | ||||||
多意图问题、知识缠绕 | 用户query宽泛,可以命中多个标准问 | |||||
用户query包含多个问句,每个问句命中一个标准问 | ||||||
错别字/繁体字 | 纠错后有意图 | |||||
无法纠错/判断不出意图 | ||||||
长文本复杂query |
数据说明:
解决方案: