Deep Leaning 学习笔记之组织机器学习项目（1.1）—— 单值评价指标

最新推荐文章于 2021-07-12 19:58:51 发布

Aperact

最新推荐文章于 2021-07-12 19:58:51 发布

阅读量315

点赞数

CC 4.0 BY-SA版权

分类专栏： DeepLearning 机器学习

本文链接：https://blog.youkuaiyun.com/m0_37108127/article/details/99821691

DeepLearning 同时被 2 个专栏收录

25 篇文章

订阅专栏

机器学习

9 篇文章

订阅专栏

本文探讨了算法评估指标的重要性，包括单值评价指标如F1分数的计算，以及如何通过设置开发集和测试集来优化算法性能。同时，讨论了在不同场景下调整评估指标和数据集的必要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1 单值评价指标

指的是，就像老式电脑一样，每个按钮单独的空置一个参数（长，宽，梯形等）

1.1 idea→code→Experiment

在这里插入图片描述
F1分数：指的是精准率P和召回率R的调和平均数
公式为： $21P+1R\frac{2}{\frac{1}{P}+\frac{1}{R}}$

1.2 满足和优化度量

即，如果我关心多个指标，比如说分类器的精确度，分类器识别一张图所需要的时间等，那么我可以找到一个我最关心的指标，比如说我最关心精确度，那么我就让精确度尽可能高的精确，而其他指标，只要满足我的最低范围就可以了。
比如精确度，我要求很高，那么其他指标，比如识别时间，我只要让他<100ms就可以了，至于是100ms还是50ms，那么都无所谓，只要不大于100ms就可以了。

1.3 设置dev和test

在开始项目前，一定要定好一个目标，并且根据目标进行均匀分布。
比如我要对ABCDE五个地区进行一个猫的识别器，那么我收集到的5个地区的猫的数据，进行随机打乱，然后再区分开发集和测试集，这样就可以保证数据的统一分布，都包含五个地区。
否则，如果用A地区的数据，来当做开发集和测试集，那么你的模型将在BCDE上表现的不好，几个月的功夫会白白浪费掉。

1.4 dev和test的大小

传统的机器学习，比例区分为： $70 / 30 ， 60 / 20 / 20$
但是现阶段，数据量已经很大的情况下，就不需要这种比例，因为
dev数据集的作用是，评估不同模型中最优的一项，让我来选择一个更好的模型继续往下深入调优。因此，也许10000条数据已经够用了，而只占用总数据量的1%。
test数据集的作用是，对已经训练好的模型进行最终评估。因此只要能够满足最终评估的效果就可以了，也不需要特别大的数据量。
因此一般分配比可能是 $98 / 1 / 1$ ，或者一些其他的，但肯定，D和V都是 $< < 30$ 的