一次项目测评反思:数据准备、测评要求和各种问题记录

最近一直在加班,总算是把课题指标和项目集成的第三方测评通过了,也踩了不少坑,正好总结反思一下。

任务背景

  • 为了项目和课题验收,需要对任务书中的技术指标进行第三方测试,并拿到第三方出具的测试报告,作为项目和课题验收的一个重要材料。

测评要求

  • 第三方测试中心对所测任务提出了补充要求:
  • 采用“离线+在线”结合的形式,要有现场注册验证环节;
  • 各个任务点对测试集至少随机采样2次以上,取其平均结果作为最终评测结果;
  • 各任务点能够对预测/识别/检测的数据输入、处理过程、输出结果进行可视化,仅仅给出一个数字结果不够。
  • 程序的运行命令、输入路径、输出路径、运行时间等信息也需要输出,以证明结果是由程序跑出来的,程序和数据集也需要拷贝留存。

单项测评和集成测评

  • 单项测评主要针对每一项算法的性能指标,比如某算法准确率、计算速度等。
  • 集成测评则是针对整个项目关键技术集成后的验证系统进行测评,包含功能项测评和技术指标测评。

测评流程

  • 首先,需要用明确的文字对测评流程的每一步骤进行细化,必要时现场修改相关测试项,并向第三方测评机构的人员解释清楚每一个测试步骤和计算原理
  • 然后,在测评电脑上开启录屏,输入数据或命令,运行测试程序,操作程序和获取指标计算结果的全过程都需要录像,作为相关证据存档。
  • 测评过程中,需要从数据集中多次采样,计算指标结果,并与预期目标进行比较,验证测评结果。
  • 最后,整理所有过程数据、结果数据、计算脚本和录屏文件,提交给第三方测评公司存档。

测评中遇到的各种问题

  • 任务拆分与总目标的对接
    负责关键技术研发的课题,和负责验证系统研发的课题,缺乏交流和对接,导致快到项目验收阶段,很多关键技术来不及进行有效集成,各个课题只关心自己的技术指标,只做了在固定数据集上、demo层面的展示,没有在真实应用场景里进行集成和优化,用测评公司的人的来说,你们这就是各自开发了一堆demo,根本不能说明这些关键技术进行了集成和应用呀。
  • 分工不明确、职责不明晰:
    当一群人都听到一个任务时,尤其是比较繁琐、比较麻烦的任务,谁也不会主动去做,因为总觉得别人会去做。心理学上有一种“拉绳实验”就是解释这种“责任分散效应” 。以后在分配任务时,就应该明确各个成员的职责,把责任落实到个人,如果分工不明确、职责不明晰,就会导致大家都不愿意为模糊的任务目标负责,导致进度的延误。
  • 给测试环节预留充分时间:
    这次由于集成测评的时间安排非常紧张,只有7天左右的时间进行准备,包括代码编写、数据采集和算法调优等工作,所以我分配了2天时间采集、整理、标注数据,2天时间写代码和测试脚本,剩余2天左右与后台集成联调,最后1天进行参数调优以保证指标顺利通过。 实际发现——在集成联调阶段出现的问题是最多的,不光是算法的问题,后台的调用、析构、多线程都可能会对算法运行结果造成影响,下次需要给联调测试留出更多的时间,而不是一直只在算法模块这边进行单路测试。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值