想要对人工智能模型进行评估,不了解评估指标怎么办?

640?wx_fmt=png

黑马程序员视频库

播妞微信号:mm7718mm

传智播客旗下互联网资讯、学习资源免费分享平台



随着人工智能技术应用领域越来越广。大量使用了人工智能技术的产品出现在了我们的现实生活中,比如常见的人脸识别,语音识别等等。


那么怎样去衡量这些产品的好坏呢,譬如怎么验证识别率高低呢。相信这是开发这个产品的研发人员以及测试人员必须要关注的一个问题。但要衡量这个标准呢,通过传统的功能测试方法是测不出来的,必须要通过人工智能训练出的模型进行评估。而评估自然就会涉及到一些指标。本文就讲述人工智能领域常见的二分类问题的模型评估指标。


所谓二分类就是一个判断是与否的标准,比如我们判断一封邮件是否是垃圾邮件,那么衡量的标准就是两个:

1.是垃圾邮件

2.不是垃圾邮件


本文通过两步进行二分类问题模型衡量指标的阐述:

第一步:二分类模型评估指标的理论介

目标

掌握二分类模型评估指标的分类以及定义


步骤

1、引出混淆矩阵

  • 衡量指标要根据混淆矩阵的各个分类来进行计算

  • 人工标记的正被机器预测为正叫TP、人工标记的负被机器预测为正叫:FP、人工标记的负被机器预测为正叫:FN、人工标记的负被机器预测为负叫:TN

  • 预测正确:正预测为正、负预测为负

  • 预测不正确:正预测为负、负预测为正

  • T-Ture F-False P-Positive N-Negative

  • 混淆矩阵图


人工标记的正样本

人工标记的负样本

被AI预测结果为正

TP

FP

被AI预测结果为负

FN

TN


2、具体指标定义

  • 准确率(Accuracy): 所有被AI预测正确的样本(包括正、负)占所有样本的比例

  • 公式如下:Accurary=( TP + TN)/(TP+TN+FP+FN)

  • 精确率(Precision): 又叫查准率,正确预测为正的占所有预测为正的比例

  • 公式如下:Precision= TP/(TP+FP)

  • 召回率(Recall):又叫查全率,正确预测为正的占全部实际为正的比例

  • 公式如下:Recall=TP/(TP+FN)


第二步:二分类模型评估指标实

目标

掌握二分类模型评估指标实际计算以及现实意义


步骤

1、实例介绍

报名参加传智播客黑马程序员软件测试培训班有男生、女生。我们进行分类,将女生看成是正类,男生为负类,使用AI模型预测后进行指标分析。


2、混淆矩阵实例


实际报名的女生人数

实际报名的男生人数

AI模型预测女生人数

58(58个女生被机器正确识别为女生)

1(一个男生被误识别为女生)

AI模型预测男生人数

2(两个女生被误识别为男生)

49(49个男生被机器正确识别为男生)

3.指标计算

  • Accuracy= (58+49)/(58+2+1+49)=97.2%

  • Precision=58/(58+1)=98.3%

  • Recall=58/(58+2)=96.7%


4.指标含义的业务分析


准确率:传智播客需要统计所有人里面被机器正确识别为男生+正确识别为女生的比例

精确率:传智播客需要统计所有被机器预测为女生里面真正是女生的比例

召回率:传智播客需要统计所有女生里正确被机器预测为女生的比例


总结

本文通过理论加实践的方式,为从事人工智能行业技术人员解答了AI领域常见的二分类问题的模型评估指标。需要注意的实际项目中需要根据业务需求来选择一个具体的衡量指标,重点不是记住公式,而是要理解公立背后所代表的的含义。



推荐阅读:


晚上9点领导在公司点名,不来加班自动离职!没想到程序员全部辞职!

程序员自买椅子办公,却被同事搬到老板办公室献媚,怒怼后竟然被开除了

Dice 称这 5 种编程语言可能衰落!而崛起的它 真的影响了 76 万人?!




640?wx_fmt=gif




文章好看就点这里 640?wx_fmt=gif


▼点击 阅读原文 加入程序员大咖群

参考资源链接:[机器学习与人工智能在糖尿病检测与管理中的应用:系统综述](https://wenku.youkuaiyun.com/doc/42trqojou7?utm_source=wenku_answer2doc_content) 在糖尿病的早期检测与管理中,机器学习和人工智能技术发挥着越来越重要的作用。针对这一问题,我推荐你参考《机器学习与人工智能在糖尿病检测与管理中的应用:系统综述》。这份资料详细探讨了糖尿病数据处理的全貌,从数据集的构建到模型评估,并提供了深入的理论与实践指导。 特征提取是机器学习中的一个关键步骤,它直接影响模型预测性能。在糖尿病数据上进行特征提取时,可以采用多种方法。首先,统计方法可以帮助识别和选择与疾病状态高度相关的特征,例如,通过单变量分析来筛选出显著影响血糖水平的变量。其次,信号处理技术如傅里叶变换、小波变换等,可以用来分析时间序列数据,提取与糖尿病风险相关的模式。最后,深度学习网络,尤其是卷积神经网络(CNN)和循环神经网络(RNN),能够自动学习和提取复杂的非线性特征。 在提取特征后,需要构建机器学习模型并对其进行评估。常见的机器学习模型包括支持向量机(SVM)、随机森林、神经网络等。对于分类问题,SVM可以有效地处理高维数据并具有良好的泛化能力;随机森林则因其集成学习的特性,在处理平衡数据时表现出色;神经网络尤其是深度学习模型,在特征提取和非线性建模方面具有独特优势。 评估模型性能时,常见的性能指标包括敏感性(召回率)、特异性、准确率、精确率以及F1分数。敏感性和特异性关注于模型在识别真阳性(TP)和真阴性(TN)上的能力,而准确率则反映了模型整体预测正确的比例。精确率关注于预测为正的样本中实际为正的比例,而F1分数则是精确率和召回率的调和平均数,对于均衡数据集特别有用。 综合利用上述技术,研究者可以构建出准确度高、鲁棒性强的糖尿病预测模型,并通过性能指标来量化模型的实际应用效果。如果你希望更深入地了解这些概念和方法,我建议你参考《机器学习与人工智能在糖尿病检测与管理中的应用:系统综述》。这份资料仅能帮助你理解当前的研究现状,还能引导你探索未来的研究方向,包括个性化医疗和智能自我管理工具的发展。 参考资源链接:[机器学习与人工智能在糖尿病检测与管理中的应用:系统综述](https://wenku.youkuaiyun.com/doc/42trqojou7?utm_source=wenku_answer2doc_content)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值