想要对人工智能模型进行评估,不了解评估指标怎么办?

640?wx_fmt=png

黑马程序员视频库

播妞微信号:mm7718mm

传智播客旗下互联网资讯、学习资源免费分享平台



随着人工智能技术应用领域越来越广。大量使用了人工智能技术的产品出现在了我们的现实生活中,比如常见的人脸识别,语音识别等等。


那么怎样去衡量这些产品的好坏呢,譬如怎么验证识别率高低呢。相信这是开发这个产品的研发人员以及测试人员必须要关注的一个问题。但要衡量这个标准呢,通过传统的功能测试方法是测不出来的,必须要通过人工智能训练出的模型进行评估。而评估自然就会涉及到一些指标。本文就讲述人工智能领域常见的二分类问题的模型评估指标。


所谓二分类就是一个判断是与否的标准,比如我们判断一封邮件是否是垃圾邮件,那么衡量的标准就是两个:

1.是垃圾邮件

2.不是垃圾邮件


本文通过两步进行二分类问题模型衡量指标的阐述:

第一步:二分类模型评估指标的理论介

目标

掌握二分类模型评估指标的分类以及定义


步骤

1、引出混淆矩阵

  • 衡量指标要根据混淆矩阵的各个分类来进行计算

  • 人工标记的正被机器预测为正叫TP、人工标记的负被机器预测为正叫:FP、人工标记的负被机器预测为正叫:FN、人工标记的负被机器预测为负叫:TN

  • 预测正确:正预测为正、负预测为负

  • 预测不正确:正预测为负、负预测为正

  • T-Ture F-False P-Positive N-Negative

  • 混淆矩阵图


人工标记的正样本

人工标记的负样本

被AI预测结果为正

TP

FP

被AI预测结果为负

FN

TN


2、具体指标定义

  • 准确率(Accuracy): 所有被AI预测正确的样本(包括正、负)占所有样本的比例

  • 公式如下:Accurary=( TP + TN)/(TP+TN+FP+FN)

  • 精确率(Precision): 又叫查准率,正确预测为正的占所有预测为正的比例

  • 公式如下:Precision= TP/(TP+FP)

  • 召回率(Recall):又叫查全率,正确预测为正的占全部实际为正的比例

  • 公式如下:Recall=TP/(TP+FN)


第二步:二分类模型评估指标实

目标

掌握二分类模型评估指标实际计算以及现实意义


步骤

1、实例介绍

报名参加传智播客黑马程序员软件测试培训班有男生、女生。我们进行分类,将女生看成是正类,男生为负类,使用AI模型预测后进行指标分析。


2、混淆矩阵实例


实际报名的女生人数

实际报名的男生人数

AI模型预测女生人数

58(58个女生被机器正确识别为女生)

1(一个男生被误识别为女生)

AI模型预测男生人数

2(两个女生被误识别为男生)

49(49个男生被机器正确识别为男生)

3.指标计算

  • Accuracy= (58+49)/(58+2+1+49)=97.2%

  • Precision=58/(58+1)=98.3%

  • Recall=58/(58+2)=96.7%


4.指标含义的业务分析


准确率:传智播客需要统计所有人里面被机器正确识别为男生+正确识别为女生的比例

精确率:传智播客需要统计所有被机器预测为女生里面真正是女生的比例

召回率:传智播客需要统计所有女生里正确被机器预测为女生的比例


总结

本文通过理论加实践的方式,为从事人工智能行业技术人员解答了AI领域常见的二分类问题的模型评估指标。需要注意的实际项目中需要根据业务需求来选择一个具体的衡量指标,重点不是记住公式,而是要理解公立背后所代表的的含义。



推荐阅读:


晚上9点领导在公司点名,不来加班自动离职!没想到程序员全部辞职!

程序员自买椅子办公,却被同事搬到老板办公室献媚,怒怼后竟然被开除了

Dice 称这 5 种编程语言可能衰落!而崛起的它 真的影响了 76 万人?!




640?wx_fmt=gif




文章好看就点这里 640?wx_fmt=gif


▼点击 阅读原文 加入程序员大咖群

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值