一次项目测评反思：数据准备、测评要求和各种问题记录

最新推荐文章于 2025-09-03 15:16:43 发布

原创最新推荐文章于 2025-09-03 15:16:43 发布 · 559 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#项目管理 #算法 #程序人生 #经验分享 #软件测试

机器学习同时被 2 个专栏收录

13 篇文章

订阅专栏

实用工作技巧

7 篇文章

订阅专栏

最近一直在加班，总算是把课题指标和项目集成的第三方测评通过了，也踩了不少坑，正好总结反思一下。

任务背景

为了项目和课题验收，需要对任务书中的技术指标进行第三方测试，并拿到第三方出具的测试报告，作为项目和课题验收的一个重要材料。

测评要求

第三方测试中心对所测任务提出了补充要求：
采用“离线+在线”结合的形式，要有现场注册验证环节；
各个任务点对测试集至少随机采样2次以上，取其平均结果作为最终评测结果；
各任务点能够对预测/识别/检测的数据输入、处理过程、输出结果进行可视化，仅仅给出一个数字结果不够。
程序的运行命令、输入路径、输出路径、运行时间等信息也需要输出，以证明结果是由程序跑出来的，程序和数据集也需要拷贝留存。

单项测评和集成测评

单项测评主要针对每一项算法的性能指标，比如某算法准确率、计算速度等。
集成测评则是针对整个项目关键技术集成后的验证系统进行测评，包含功能项测评和技术指标测评。

测评流程

首先，需要用明确的文字对测评流程的每一步骤进行细化，必要时现场修改相关测试项，并向第三方测评机构的人员解释清楚每一个测试步骤和计算原理。
然后，在测评电脑上开启录屏，输入数据或命令，运行测试程序，操作程序和获取指标计算结果的全过程都需要录像，作为相关证据存档。
测评过程中，需要从数据集中多次采样，计算指标结果，并与预期目标进行比较，验证测评结果。
最后，整理所有过程数据、结果数据、计算脚本和录屏文件，提交给第三方测评公司存档。

测评中遇到的各种问题

任务拆分与总目标的对接：
负责关键技术研发的课题，和负责验证系统研发的课题，缺乏交流和对接，导致快到项目验收阶段，很多关键技术来不及进行有效集成，各个课题只关心自己的技术指标，只做了在固定数据集上、demo层面的展示，没有在真实应用场景里进行集成和优化，用测评公司的人的来说，你们这就是各自开发了一堆demo，根本不能说明这些关键技术进行了集成和应用呀。
分工不明确、职责不明晰：
当一群人都听到一个任务时，尤其是比较繁琐、比较麻烦的任务，谁也不会主动去做，因为总觉得别人会去做。心理学上有一种“拉绳实验”就是解释这种“责任分散效应” 。以后在分配任务时，就应该明确各个成员的职责，把责任落实到个人，如果分工不明确、职责不明晰，就会导致大家都不愿意为模糊的任务目标负责，导致进度的延误。
给测试环节预留充分时间：
这次由于集成测评的时间安排非常紧张，只有7天左右的时间进行准备，包括代码编写、数据采集和算法调优等工作，所以我分配了2天时间采集、整理、标注数据，2天时间写代码和测试脚本，剩余2天左右与后台集成联调，最后1天进行参数调优以保证指标顺利通过。实际发现——在集成联调阶段出现的问题是最多的，不光是算法的问题，后台的调用、析构、多线程都可能会对算法运行结果造成影响，下次需要给联调测试留出更多的时间，而不是一直只在算法模块这边进行单路测试。