最近一直在加班,总算是把课题指标和项目集成的第三方测评通过了,也踩了不少坑,正好总结反思一下。
任务背景
- 为了项目和课题验收,需要对任务书中的技术指标进行第三方测试,并拿到第三方出具的测试报告,作为项目和课题验收的一个重要材料。
测评要求
- 第三方测试中心对所测任务提出了补充要求:
- 采用“离线+在线”结合的形式,要有现场注册验证环节;
- 各个任务点对测试集至少随机采样2次以上,取其平均结果作为最终评测结果;
- 各任务点能够对预测/识别/检测的数据输入、处理过程、输出结果进行可视化,仅仅给出一个数字结果不够。
- 程序的运行命令、输入路径、输出路径、运行时间等信息也需要输出,以证明结果是由程序跑出来的,程序和数据集也需要拷贝留存。
单项测评和集成测评
- 单项测评主要针对每一项算法的性能指标,比如某算法准确率、计算速度等。
- 集成测评则是针对整个项目关键技术集成后的验证系统进行测评,包含功能项测评和技术指标测评。
测评流程
- 首先,需要用明确的文字对测评流程的每一步骤进行细化,必要时现场修改相关测试项,并向第三方测评机构的人员解释清楚每一个测试步骤和计算原理。
- 然后,在测评电脑上开启录屏,输入数据或命令,运行测试程序,操作程序和获取指标计算结果的全过程都需要录像,作为相关证据存档。
- 测评过程中,需要从数据集中多次采样,计算指标结果,并与预期目标进行比较,验证测评结果。
- 最后,整理所有过程数据、结果数据、计算脚本和录屏文件,提交给第三方测评公司存档。
测评中遇到的各种问题
- 任务拆分与总目标的对接:
负责关键技术研发的课题,和负责验证系统研发的课题,缺乏交流和对接,导致快到项目验收阶段,很多关键技术来不及进行有效集成,各个课题只关心自己的技术指标,只做了在固定数据集上、demo层面的展示,没有在真实应用场景里进行集成和优化,用测评公司的人的来说,你们这就是各自开发了一堆demo,根本不能说明这些关键技术进行了集成和应用呀。 - 分工不明确、职责不明晰:
当一群人都听到一个任务时,尤其是比较繁琐、比较麻烦的任务,谁也不会主动去做,因为总觉得别人会去做。心理学上有一种“拉绳实验”就是解释这种“责任分散效应”。以后在分配任务时,就应该明确各个成员的职责,把责任落实到个人,如果分工不明确、职责不明晰,就会导致大家都不愿意为模糊的任务目标负责,导致进度的延误。 - 给测试环节预留充分时间:
这次由于集成测评的时间安排非常紧张,只有7天左右的时间进行准备,包括代码编写、数据采集和算法调优等工作,所以我分配了2天时间采集、整理、标注数据,2天时间写代码和测试脚本,剩余2天左右与后台集成联调,最后1天进行参数调优以保证指标顺利通过。 实际发现——在集成联调阶段出现的问题是最多的,不光是算法的问题,后台的调用、析构、多线程都可能会对算法运行结果造成影响,下次需要给联调测试留出更多的时间,而不是一直只在算法模块这边进行单路测试。

1742

被折叠的 条评论
为什么被折叠?



