深度学习模型训练与调试技巧-优快云博客

本文链接：https://blog.youkuaiyun.com/CMdty45d2/article/details/121765475

在运行模型之前，一定要检查
1. 输入输出维度
2. 用tensorboard打印GT和input检查
3. 定期检查学习率，更新学习率有奇效
4. 注意检查模型是否保存下来了，跑1个epoch测试所有问题
python变量定义语句后面加逗号会变成tuple，麻了
Github上跑测试代码的经验积累
1. 有clone下来直接操作python工程的，熟悉python的都没啥问题
2. 有clone下来用git bash运行.sh文件的，这里可能出现的问题是本机的python环境没有所需要的库，你又不想搞乱环境。这时候可以用conda/virtultenv的虚拟环境。但是我的git bash运行source activate的时候出问题。所以后来用终端可以完成这个工作，可以完成**[虚拟环境创建，虚拟环境配置，运行shell文件]**等工作
网络可以改进的部分：改网络结构，改损失函数，改训练过程
模型对输入维度有要求的的问题：可以输入的时候先padding，得到输出后crop回原图大小，我们确保和baseline完全对齐看看，即保留所有的需要预测的部位，但是通过空白值把原图填充到需要的维度
如果Psnr高了3db，在某一区域的视觉提升应该会非常明显
解决AttributeError: module ‘tensorflow’ has no attribute 'keras’问题

将model=tf.keras替换model=tf.contrib.keras

【输出文件夹总和不能超出2G】页面虽然可以选择单个文件，但是最终还是需要看任务输出目录下的所有文件大小总和不能超过2g，否则文件不会拷贝的，可以联系管理员手动处理
专用下载器要点一下那个小云彩才能下载
模型有模型简介和文件两个页面（nmd）
模型未保存是为什么？难道是output文件夹内存太多了？
【FTP传输】注意可以断点续传，另外可以多命名多个文件同时传输

startdocker -u "-it" -c /bin/bash bit:5000/image_name

进入镜像调试台

代码踩坑记录