评价指标:
- GLUE
- SuperGLUE(DeepMind、纽约大学、华盛顿大学联合Facebook提出了新的测试标准SuperGLUE,加入了更难的因果推理任务)
- SQuAD
- RACE
参考
本文回顾了2019年的人工智能技术进展,并介绍了多个用于评估AI模型性能的标准,包括GLUE、SuperGLUE、SQuAD和RACE等,这些指标涵盖了从自然语言理解到因果推理的广泛任务。
评价指标:
参考
1410
1777
1万+

被折叠的 条评论
为什么被折叠?