第21章 机器学习的评测体系
当我们训练完一个模型之后,如何评价这个模型的好坏呢?准确率是一个评价标准,但它仅仅是相对于这个模型对测试集的预测结果。抛开这些,如何看待这个模型在解决语音或图像的某个具体问题时是否能发挥作用呢?这就涉及评价模型的性能指标。本章主要讲解人脸识别和智能聊天机器人的性能指标,以及机器翻译的评价方法和常用的通用评价指标。
21.1 人脸识别的性能指标
人脸识别的主要性能指标包括鉴别性能和验证性能。
(1)鉴别性能就是指是否鉴别准确。具体性能指标有以下几个。
- Top-K识别率:就是在给出的前K个结果中包含正确结果的概率。
- 错误拒绝辨识率(FNIR):指注册用户被系统错误辨识为其他注册用户的比例。
- 错误接受辨识率(FPIR):非注册用户被系统辨识为某个注册用户的比例。
(2)验证性能是指验证人脸模型是否足够好。性能指标主要有以下两个。
- 误识率(False Accept Rate,FAR):就是将其他人误作指定人员的概率。
- 拒识率(False Reject Rate,FRR):就是将指定人员误作其他人员的概率。
除此之外,还有识别速度(识别一副人脸图像的时间、识别一个人的时间)、注册速度(注册一个人的时间)等衡量人脸识别技术的指标。
21.2 聊天机器人的性能指标
如何对聊天机器人智能程度进行评价是一项挑战。目前采用的通用的客观评价标准有:回答正确率、任务完成率
本文介绍了机器学习的评测体系,包括人脸识别的鉴别和验证性能指标,如Top-K识别率、FAR和FRR;聊天机器人的评价标准,如回答正确率和对话多样性;机器翻译的BLEU和METEOR方法;以及通用的ROC、AUC、AP和mAP指标。
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



