本文原创作者:姚瑞南 AI-Agent 大模型运营专家,先后任职于美团、猎聘等中大厂AI训练专家和智能运营专家岗;多年人工智能行业智能产品运营及大模型落地经验,拥有AI外呼方向国家专利与PMP项目管理证书。(转载需经授权)
目录
一、在线标注项目
1. 优选用户
序号 | 项目名称 | 数据量 | 标注月份 | 资源人数 | 准确率 | 收益计算 |
1 | 优选用户在线间接识别标注1 | 19454 | 10月 | 7 | 98% | 完成标注项目知识优化总结,推动运营改善优选用户知识优化总结 |
2 | 优选用户在线间接识别标注2 | 20450 | 11月 | 15 | 98% | 完成标注项目知识优化总结,推动运营改善优选用户知识优化总结2 |
3 | 美团整体大盘准确率月度评估(11月) | 1100 | 11月 | - | 99% | 经统计整体query数量及占比、准确率计算: ①从“query类型分布来看”,46.82%的query是「意图明确」的、18%的query是「找人工」、23.36%的query是「表述宽泛」的、7.91%的query是「闲聊寒暄」 「意图明确」占比较10月下降7.26PP,「表述宽泛」占比较10月上涨6.68PP。 ②其中,「意图明确」query识别准确率为90.49%,较10月提升1.58PP(88.91%->90.49%) ③「意图明确」识别错误case中,67%由“无知识覆盖”贡献,“无知识覆盖”对识别错误的贡献较10月下降20.5PP ④从“识别类型”来看,「意图明确」&「找人工」&「闲聊寒暄」query中,直接识别准确率:间接识别准确率=97.68%:80.73%,较10月无较大波动11月意图识别准确率评测报告 |
4 | 美团整体大盘准确率月度评估(12月) | 1058 | 12月 | - | ||
5 | 12月美团优选用户准确率评估 | 1400 | 12月 | 1 | ||
6 | 美团整体大盘准确率月度评估(1月) | 1100 | 1月30日 | - | ||
7 | 美团整体大盘准确率月度评估(2月) | 1100 | 2月20日 | |||
8 | 优选用户在线间接识别标注3 | 24000 | 2月17日 | 6 | - | - |
9 | 美团整体大盘准确率月度评估(3月) | 1000 | 3.28日 | - | 99% | |
10 | 3月美团优选用户准确率评估 | 1000 | 3.28日 | 6 | 99% |
2. 美团买菜
序号 | 项目名称 | 数据量 | 标注月份 | 资源人数 | 准确率 | 收益计算 |
1 | 美团买菜识别准确率评估 | 500 | 11月 | - | 98% | 评估美团买菜整体识别率,反馈至产品端。 11月份,整体准确率81.09%;整体覆盖率87.39% |
2 | 美团买菜-未识别标注 | 2000 | 11月 | 2 | 98% | w47周数据未识别数量激增,优化该部分未识别数据。以提高智能覆盖率,联动产品推动进行优化,具体聚类问题及采纳情况,详见在线标注-美团买菜-未覆盖知识优化建议 |
3 | 美团买菜-图片识别标注 | 1994 | 11月 | 2 | 评估中 | |
4 | 美团买菜-算法推荐拓展问准确率评估 | 384 | 12月 | - | 评估美团买菜整体识别率,反馈至产品端。 | |
5 | 美团买菜-算法推荐拓展问准确率评估 | 364 | 12月 | 评估美团买菜整体间接识别推荐拓展问准确率,反馈至产品端。 | ||
6 | 美团买菜-间接识别标注 | 3000 |
3. 团好货用户
序号 | 项目名称 | 数据量 | 标注月份 | 资源人数 | 准确率 | 收益计算 |
1 | 团好货未识别标注1 | 16000 | 2月 | 5 | 98% | 新业务团好货,提升直接识别率,增加知识覆盖率 |
2 | 团好货未识别标注2 | 15000 | 2月 | 5 | 98% | 新业务团好货,提升直接识别率,增加知识覆盖率 |
二、电话标注项目
1. 优选用户
序号 | 项目名称 | 数据量 | 标注月份 | 资源人数 | 准确率 | 收益计算 |
1 | 优选用户冷启动标注(测试集+训练集) | 【测试集】1732条数据;【训练集】6000条数据 | 测试集9.5-9.7 训练集9.13-9.16 | 2 | - | 【测试集】1732条数据,标注过程中增加11个多意图拆分语料,共1743条数据。 1. 标注质量:标注错误67个,标注准确率96.15%; 2. 质检质量:质检错误42个,质检准确率97.60%; 【训练集】6000条数据,标注过程中增加26个多意图拆分语料,共6026条数据。 1. 标注质量:标注错误225个,标注准确率96.26%; 2. 质检质量:质量错误70个,质检准确率98.24%; 初次测试模型准确率达到90.05%,召回率71.16%,一次达到上线水平(上线要求准确率90%,召回率60%,同期其他业务经过4次优化才达到此标准。数据支撑来自02.自测文档) |
2 | 优选用户电话未识别标注1 | 2810 | 10月 | 2人 | 98% | 根据未识别数据标注结果,12.01上线了2k多条拓展问,对比上线前三天11.28-11.30和后三天12.02-12.04: query维度全意图识别率60.4%->69.4%,业务意图识别率41.7%->47.1%; call维度全意图识别率81.0%->87.6%,业务意图识别率56.1%->59.7%。 |
3 | 优选用户电话未识别标注2 | 1869 | 11月 | 2人 | 98% | |
4 | 优选用户baseline | 1000 | 11月 | 1人 | 98% | |
5 | 跨业务肯否意图识别测试集 | 4500 | 12月 | 1人 | 98% | |
6 | 电话未识别 | 6447 | 1月 | 1人 | 98% | |
7 | 电话未识别 | 23333 | 1月 | 4人 | 98% | |
8 | 优选用户baseline | 1000 | 2月 | 1人 | 98% | |
9 | 电话整体大盘评测2月 | 1000 | 2月 | - | 95% | |
10 | 电话整体大盘评测3月 | 1000 | 3月28日 | 99% |
2. 优选团长
序号 | 项目名称 | 数据量 | 标注月份 | 资源人数 | 准确率 | 收益计算 |
1 | 优选团长冷启动测试集标注 | 3000条 | 1 | 98% | 准确率90%,召回率50% | |
2 | 优选团长冷启动训练集标注 | 6000条 | 1 | 98% | ||
3 | 优选团长冷启动新增问题标注 | 2000条 | 1 | 98% |
3. 美团买菜
序号 | 项目名称 | 数据量 | 标注月份 | 资源人数 | 准确率 | 收益计算 |
1 | 美团买菜-电话意图识别冷启动 | 10692 | 10月 | 3 | 98% | 训练集:6000条,测试集3000条,因知识库变动,复标1692条 【离线效果评估】结果:有解决部分 准确率 90.68% 召回率83.99%,超过上线水平(上线指标要求:准确率90%,召回率80%),已上线。 |
2 | 买菜baseline | 1000 | 2月 | 1 | 98% | |
三、外呼质检项目
序号 | 项目名称 | 数据量 | 标注月份 | 资源人数 | 准确率 | 收益计算 |
1 | 快驴标注质检case归因 | 300case | 2月10日 | 1 | 98% | |
四、识别提升专项
1. 优选用户
序号 | 项目名称 | 数据量 | 标注月份 | 资源人数 | 准确率 | 收益计算 |
1 | 体验改善-识别能力提升(缠绕检测分析) | 87对case | 1.20 | 1 | - |