【2023 CCF 大数据与计算智能大赛】基于TPU平台实现超分辨率重建模型部署基于QuickRNet的TPU超分模型部署

算能开发者社区

于 2024-01-05 16:02:10 发布

阅读量1.4k

点赞数 23

文章标签：大数据超分辨率重建人工智能

本文链接：https://blog.youkuaiyun.com/lily_19861986/article/details/135411800

版权

2023 CCF 大数据与计算智能大赛

《赛题名称》

基于QuickRNet的TPU超分模型部署

巴黎欧莱雅

林松

智能应用业务部算法工程师

中信科移动

中国-北京

gpu@163.com

团队简介

巴黎欧莱雅团队包含一个队长和零个队员。

队长林松，研究生学历，2019-2022在中国矿业大学（北京）攻读硕士学位，于2022年7月加入中信科移动公司，现在在智能应用业务部负责视觉AI算法的落地部署，是一名算法工程师，主要擅长视觉AI模型的训练、部署、优化，擅长x86、arm等平台的模型推理加速。

摘要

本文基于TPU超分模型部署提出了使用网络结构更简单、推理性能更高效、int8量化更友好的QucikSRNet来做为本次比赛的基础模型。

该模型已经被高通广泛应用到手机游戏、视频高清化、电视高清化、VR设备画面锐化等多个移动端领域，使得移动设备上实时超分辨率计算、热量和功耗都达到了不错的平衡。

在训练策略上，该模型使用了基于残差的超分辨率的训练初始化技巧，借鉴了类似重参数化的思想，在训练开始时将残差分支映射到权重为1的卷积嵌入到3x3的卷积，通过在随机初始化的3x3核权重上加一个中心值为1、其他值为0的权重核来模拟残差思想。

在推理策略上，本方案使用了膨胀推理的方案，并且使用了多模型多线程并行的生产者消费者模式，并且为了避免python语言层面的GIL问题，我将核心的前处理、模型推理、模型后处理统一封装到c++动态库中提供给python调用，推理速度上加速大于10倍。并且，通过本方案使用了内存池，显示的控制输入输出内存反复利用，避免了多次开辟和释放造成的耗时问题。

在平衡时延和性能上，本方案采取了网格搜索策略，对于模型的输出尺寸、模型的参数量大小、模型的量化方式进行了小范围内的搜索，最终选择输入尺寸192*192、模型参数1.7M、模型int8对称量化作为最终的方案，最终实现了模型平均niqe分数为5.0478和平均推理时间为38.3毫秒，获得初赛第三，复赛第二的成绩。

关键词

QucikSRNet，残差，量化，膨胀推理，生产者消费者，网格搜索

1 方案介绍

本方案使用了开源的QucikSRNet[1]作为基座模型，使用了其1.7M的大模型作为基准，并且分别针对其训练、推理进行了优化。初次之外本方案还对多种超参数进行了网格搜索，最终选择分数最高的组合作为最终的